大数据技术分享

大数据技术分享

Spark机器学习库

知识百科沸羊羊 发表了文章 • 0 个评论 • 45 次浏览 • 2024-04-12 10:25 • 来自相关话题

Spark机器学习库(MLlib)作为Apache Spark生态系统的重要组成部分,为开发人员提供了强大而高效的工具集,用于在大规模分布式环境中构建、训练和部署机器学习模型。本文将深入探讨Spark MLlib的特性、架构、功能模块、应用优势及其在实际场景中... ...查看全部

Spark内存计算框架

知识百科沸羊羊 发表了文章 • 0 个评论 • 42 次浏览 • 2024-04-12 10:24 • 来自相关话题

Apache Spark,作为当今大数据处理领域最为耀眼的明星之一,以其卓越的内存计算能力、高效的分布式处理架构以及丰富的生态系统,正在深刻重塑大数据处理的格局。本文将深入剖析Spark内存计算框架的核心原理、关键技术、应用场景以及未来发展趋势,旨在揭示其在大... ...查看全部

Spark分布式计算

知识百科沸羊羊 发表了文章 • 0 个评论 • 43 次浏览 • 2024-04-12 10:24 • 来自相关话题

Apache Spark作为新一代大数据处理框架,以其卓越的分布式计算能力、高效内存计算模型和丰富的生态系统,正在逐步取代传统MapReduce,成为大数据分析领域的主流选择。本文将深度剖析Spark分布式计算的架构、原理及实践应用,旨在揭示Spark如何通过... ...查看全部

Spark大数据处理

知识百科沸羊羊 发表了文章 • 0 个评论 • 43 次浏览 • 2024-04-12 10:24 • 来自相关话题

Apache Spark作为一款开源的大数据处理框架,以其卓越的性能、易用性以及广泛的生态系统,已成为现代大数据处理领域的核心工具。本文将深入探讨Spark的基本原理、核心组件、优势特性、应用领域以及最佳实践,为读者全面解析Spark如何高效处理海量数据,助力... ...查看全部

Hive SQL on Flink 构建流批一体引擎

网友分享数栈君 发表了文章 • 0 个评论 • 287 次浏览 • 2023-06-01 17:18 • 来自相关话题

01构建流批一体引擎的挑战目前,流和批仍然是相对割裂的。虽然我们在应用层统一了,但从接入层开始,不同的引擎依旧有不同的接入层、API 层、执行层。我们认为,统一的流批一体引擎应该是从接入层开始使用 SQL Gateway 作为接入层。在 API 层使用 Fli... ...查看全部

Hybrid Shuffle 测试分析和使用建议

网友分享数栈君 发表了文章 • 0 个评论 • 224 次浏览 • 2023-06-01 17:15 • 来自相关话题

Hybrid Shuffle 的优势分析相比于传统的批式 Shuffle, Hybrid Shuffle 主要具备以下优势:调度:Hybrid Shuffle 打破了 Pipelined Shuffle 所有 Task 必须同时调度,Blocking Shuf... ...查看全部

Flink提交流程&如何debug和跟踪流程(on yarn)

技术共享数栈君 发表了文章 • 0 个评论 • 802 次浏览 • 2023-02-14 14:05 • 来自相关话题

4月20日,袋鼠云数栈技术研发团队工程师兰洋(花名:莫问)为大家直播分享《Flink提交流程&如何debug和跟踪流程(on yarn)》。错过直播的朋友可以钉钉扫描文末的二维码,加入钉钉群回看直播,或者在b站搜索“袋鼠云”观看视频。b站视频网址:ht... ...查看全部

Spark机器学习库

知识百科沸羊羊 发表了文章 • 0 个评论 • 45 次浏览 • 2024-04-12 10:25 • 来自相关话题

Spark机器学习库(MLlib)作为Apache Spark生态系统的重要组成部分,为开发人员提供了强大而高效的工具集,用于在大规模分布式环境中构建、训练和部署机器学习模型。本文将深入探讨Spark MLlib的特性、架构、功能模块、应用优势及其在实际场景中... ...查看全部

Spark内存计算框架

知识百科沸羊羊 发表了文章 • 0 个评论 • 42 次浏览 • 2024-04-12 10:24 • 来自相关话题

Apache Spark,作为当今大数据处理领域最为耀眼的明星之一,以其卓越的内存计算能力、高效的分布式处理架构以及丰富的生态系统,正在深刻重塑大数据处理的格局。本文将深入剖析Spark内存计算框架的核心原理、关键技术、应用场景以及未来发展趋势,旨在揭示其在大... ...查看全部

Spark分布式计算

知识百科沸羊羊 发表了文章 • 0 个评论 • 43 次浏览 • 2024-04-12 10:24 • 来自相关话题

Apache Spark作为新一代大数据处理框架,以其卓越的分布式计算能力、高效内存计算模型和丰富的生态系统,正在逐步取代传统MapReduce,成为大数据分析领域的主流选择。本文将深度剖析Spark分布式计算的架构、原理及实践应用,旨在揭示Spark如何通过... ...查看全部

Spark大数据处理

知识百科沸羊羊 发表了文章 • 0 个评论 • 43 次浏览 • 2024-04-12 10:24 • 来自相关话题

Apache Spark作为一款开源的大数据处理框架,以其卓越的性能、易用性以及广泛的生态系统,已成为现代大数据处理领域的核心工具。本文将深入探讨Spark的基本原理、核心组件、优势特性、应用领域以及最佳实践,为读者全面解析Spark如何高效处理海量数据,助力... ...查看全部

Hive SQL on Flink 构建流批一体引擎

网友分享数栈君 发表了文章 • 0 个评论 • 287 次浏览 • 2023-06-01 17:18 • 来自相关话题

01构建流批一体引擎的挑战目前,流和批仍然是相对割裂的。虽然我们在应用层统一了,但从接入层开始,不同的引擎依旧有不同的接入层、API 层、执行层。我们认为,统一的流批一体引擎应该是从接入层开始使用 SQL Gateway 作为接入层。在 API 层使用 Fli... ...查看全部

Hybrid Shuffle 测试分析和使用建议

网友分享数栈君 发表了文章 • 0 个评论 • 224 次浏览 • 2023-06-01 17:15 • 来自相关话题

Hybrid Shuffle 的优势分析相比于传统的批式 Shuffle, Hybrid Shuffle 主要具备以下优势:调度:Hybrid Shuffle 打破了 Pipelined Shuffle 所有 Task 必须同时调度,Blocking Shuf... ...查看全部

Flink提交流程&如何debug和跟踪流程(on yarn)

技术共享数栈君 发表了文章 • 0 个评论 • 802 次浏览 • 2023-02-14 14:05 • 来自相关话题

4月20日,袋鼠云数栈技术研发团队工程师兰洋(花名:莫问)为大家直播分享《Flink提交流程&如何debug和跟踪流程(on yarn)》。错过直播的朋友可以钉钉扫描文末的二维码,加入钉钉群回看直播,或者在b站搜索“袋鼠云”观看视频。b站视频网址:ht... ...查看全部