Spark运行原理

Spark运行原理

Hadoop生态简介,Hive、Spark、HBase等

网友分享数栈君 发表了文章 • 0 个评论 • 181 次浏览 • 2025-01-22 14:05 • 来自相关话题

1. Hadoop1.1 Hadoop简介Hadoop现在已经是大数据领域事实上的标准,基本提到大数据,大家首先想到的就是Hadoop。在本文中,笔者会结合自己的实际使用经验,力求以简单易懂的语言讲清楚Hadoop及其衍生生态下各个组件产生的背景,以及它们之间... ...查看全部

Spark内置函数:字符串、日期和时间函数、聚合函数、数值函数、条件判断函数、窗口函数

技术共享数栈君 发表了文章 • 0 个评论 • 597 次浏览 • 2024-11-01 11:42 • 来自相关话题

1.1 字符串concat(col1,col2,......):连接多个字符串列。例如:concat(‘Hello’, ’ ‘, ‘World’)将返回’Hello World’。substring(col,start,length):从给定字符串列中提取子字... ...查看全部

Spark web UI 介绍

技术共享数栈君 发表了文章 • 0 个评论 • 772 次浏览 • 2024-09-23 15:12 • 来自相关话题

前言在日常的开发工作中,我们总会遇到 Spark 应用运行失败、或是执行效率未达预期的情况。对于这样的问题,想找到根本原因,可以通过 Spark UI 提供的"体检报告"中的一些信息来获取最直接、最直观的线索,本篇就是介绍如何解读Spark UI “体检报告”... ...查看全部

快手自研Spark向量化引擎正式发布,性能提升200%

技术共享数栈君 发表了文章 • 0 个评论 • 839 次浏览 • 2024-09-23 14:52 • 来自相关话题

Blaze 是快手自研的基于Rust语言和DataFusion框架开发的Spark向量化执行引擎,旨在通过本机矢量化执行技术来加速Spark SQL的查询处理。Blaze在快手内部上线的数仓生产作业也观测到了平均30%的算力提升,实现了较大的降本增效。本文将深... ...查看全部

Spark 对接 Alluxio

技术共享数栈君 发表了文章 • 0 个评论 • 585 次浏览 • 2024-07-31 15:23 • 来自相关话题

1、概览        Spark 1.1 或更高版本的 Spark可以通过其与 HDFS 兼容的接口直接访问 Alluxio 集群。 使用 Alluxio 作为数据访问层,Spark 应用程序可以透明地访问许多不同类型的持久化存储服务(例如,AWS S3 b... ...查看全部

SpringCloud-实现基于RabbitMQ的消息队列

网友分享数栈君 发表了文章 • 0 个评论 • 400 次浏览 • 2024-07-24 14:15 • 来自相关话题

消息队列是现代分布式系统中常用的通信机制,用于在不同的服务之间传递消息。在Spring Cloud框架中,我们可以利用RabbitMQ实现强大而可靠的消息队列系统。本篇博客将详细介绍如何在Spring Cloud项目中集成RabbitMQ,并创建一个简单的消息... ...查看全部

Spark SQL函数

网友分享数栈君 发表了文章 • 0 个评论 • 426 次浏览 • 2024-07-24 14:11 • 来自相关话题

内置函数 Spark SQL内置了大量的函数,位于API org.apache.spark.sql.functions中。其中大部分函数与Hive中的相同。 使用内置函数有两种方式:一种是通过编程的方式使用;另一种是在SQL语句中使用。- 以编... ...查看全部

实时数据分析利器:Spark Streaming实战攻略

知识百科数栈君 发表了文章 • 0 个评论 • 13272 次浏览 • 2024-05-14 16:48 • 来自相关话题

在当今数据驱动的时代,能够快速处理并分析实时数据流对于企业来说至关重要。Apache Spark 的 Spark Streaming 模块是一个强大的工具,用于处理实时数据。它允许用户在高吞吐量的情况下进行实时数据处理,并且能够与多种数据源无缝对接,如Kafk... ...查看全部

深入浅出Spark SQL:高效数据查询技术

知识百科数栈君 发表了文章 • 0 个评论 • 342 次浏览 • 2024-05-14 16:48 • 来自相关话题

Spark新手指南:轻松构建大数据处理平台

知识百科数栈君 发表了文章 • 0 个评论 • 337 次浏览 • 2024-05-14 16:48 • 来自相关话题

Hadoop生态简介,Hive、Spark、HBase等

网友分享数栈君 发表了文章 • 0 个评论 • 181 次浏览 • 2025-01-22 14:05 • 来自相关话题

1. Hadoop1.1 Hadoop简介Hadoop现在已经是大数据领域事实上的标准,基本提到大数据,大家首先想到的就是Hadoop。在本文中,笔者会结合自己的实际使用经验,力求以简单易懂的语言讲清楚Hadoop及其衍生生态下各个组件产生的背景,以及它们之间... ...查看全部

Spark内置函数:字符串、日期和时间函数、聚合函数、数值函数、条件判断函数、窗口函数

技术共享数栈君 发表了文章 • 0 个评论 • 597 次浏览 • 2024-11-01 11:42 • 来自相关话题

1.1 字符串concat(col1,col2,......):连接多个字符串列。例如:concat(‘Hello’, ’ ‘, ‘World’)将返回’Hello World’。substring(col,start,length):从给定字符串列中提取子字... ...查看全部

Spark web UI 介绍

技术共享数栈君 发表了文章 • 0 个评论 • 772 次浏览 • 2024-09-23 15:12 • 来自相关话题

前言在日常的开发工作中,我们总会遇到 Spark 应用运行失败、或是执行效率未达预期的情况。对于这样的问题,想找到根本原因,可以通过 Spark UI 提供的"体检报告"中的一些信息来获取最直接、最直观的线索,本篇就是介绍如何解读Spark UI “体检报告”... ...查看全部

快手自研Spark向量化引擎正式发布,性能提升200%

技术共享数栈君 发表了文章 • 0 个评论 • 839 次浏览 • 2024-09-23 14:52 • 来自相关话题

Blaze 是快手自研的基于Rust语言和DataFusion框架开发的Spark向量化执行引擎,旨在通过本机矢量化执行技术来加速Spark SQL的查询处理。Blaze在快手内部上线的数仓生产作业也观测到了平均30%的算力提升,实现了较大的降本增效。本文将深... ...查看全部

Spark 对接 Alluxio

技术共享数栈君 发表了文章 • 0 个评论 • 585 次浏览 • 2024-07-31 15:23 • 来自相关话题

1、概览        Spark 1.1 或更高版本的 Spark可以通过其与 HDFS 兼容的接口直接访问 Alluxio 集群。 使用 Alluxio 作为数据访问层,Spark 应用程序可以透明地访问许多不同类型的持久化存储服务(例如,AWS S3 b... ...查看全部

SpringCloud-实现基于RabbitMQ的消息队列

网友分享数栈君 发表了文章 • 0 个评论 • 400 次浏览 • 2024-07-24 14:15 • 来自相关话题

消息队列是现代分布式系统中常用的通信机制,用于在不同的服务之间传递消息。在Spring Cloud框架中,我们可以利用RabbitMQ实现强大而可靠的消息队列系统。本篇博客将详细介绍如何在Spring Cloud项目中集成RabbitMQ,并创建一个简单的消息... ...查看全部

Spark SQL函数

网友分享数栈君 发表了文章 • 0 个评论 • 426 次浏览 • 2024-07-24 14:11 • 来自相关话题

内置函数 Spark SQL内置了大量的函数,位于API org.apache.spark.sql.functions中。其中大部分函数与Hive中的相同。 使用内置函数有两种方式:一种是通过编程的方式使用;另一种是在SQL语句中使用。- 以编... ...查看全部

实时数据分析利器:Spark Streaming实战攻略

知识百科数栈君 发表了文章 • 0 个评论 • 13272 次浏览 • 2024-05-14 16:48 • 来自相关话题

在当今数据驱动的时代,能够快速处理并分析实时数据流对于企业来说至关重要。Apache Spark 的 Spark Streaming 模块是一个强大的工具,用于处理实时数据。它允许用户在高吞吐量的情况下进行实时数据处理,并且能够与多种数据源无缝对接,如Kafk... ...查看全部

深入浅出Spark SQL:高效数据查询技术

知识百科数栈君 发表了文章 • 0 个评论 • 342 次浏览 • 2024-05-14 16:48 • 来自相关话题

Spark新手指南:轻松构建大数据处理平台

知识百科数栈君 发表了文章 • 0 个评论 • 337 次浏览 • 2024-05-14 16:48 • 来自相关话题