Spark

Spark

Spark内置函数:字符串、日期和时间函数、聚合函数、数值函数、条件判断函数、窗口函数

技术共享数栈君 发表了文章 • 0 个评论 • 23 次浏览 • 5 天前 • 来自相关话题

1.1 字符串concat(col1,col2,......):连接多个字符串列。例如:concat(‘Hello’, ’ ‘, ‘World’)将返回’Hello World’。substring(col,start,length):从给定字符串列中提取子字... ...查看全部

大数据大厂之大数据在能源行业的智能优化变革与展望

技术共享数栈君 发表了文章 • 0 个评论 • 37 次浏览 • 2024-10-28 14:35 • 来自相关话题

一、大数据与能源行业的深度融合:开启智能优化新征程在能源行业这片广袤而复杂的天地里,大数据犹如一座指引方向的灯塔,照亮智能优化的前行之路。当下,能源行业正处于规模急剧扩张与技术深刻变革的关键时期,能源的生产、传输和消费规模呈指数级增长,这一趋势既是机遇的曙光,... ...查看全部

大数据大厂之Kubernetes与大数据:容器化部署的最佳实践

技术共享数栈君 发表了文章 • 0 个评论 • 111 次浏览 • 2024-09-29 16:18 • 来自相关话题

大数据的浩瀚海洋中,Kubernetes 宛如一艘坚固的航船,引领我们在数据的浪潮中稳步前行。一、高效的容器编排1.1 智能化管理Kubernetes 具备强大的自动化管理能力,能够对容器进行精准调度。在大数据处理场景中,可将 Hadoop 的 NameNod... ...查看全部

Spark web UI 介绍

技术共享数栈君 发表了文章 • 0 个评论 • 113 次浏览 • 2024-09-23 15:12 • 来自相关话题

前言在日常的开发工作中,我们总会遇到 Spark 应用运行失败、或是执行效率未达预期的情况。对于这样的问题,想找到根本原因,可以通过 Spark UI 提供的"体检报告"中的一些信息来获取最直接、最直观的线索,本篇就是介绍如何解读Spark UI “体检报告”... ...查看全部

快手自研Spark向量化引擎正式发布,性能提升200%

技术共享数栈君 发表了文章 • 0 个评论 • 164 次浏览 • 2024-09-23 14:52 • 来自相关话题

Blaze 是快手自研的基于Rust语言和DataFusion框架开发的Spark向量化执行引擎,旨在通过本机矢量化执行技术来加速Spark SQL的查询处理。Blaze在快手内部上线的数仓生产作业也观测到了平均30%的算力提升,实现了较大的降本增效。本文将深... ...查看全部

Spark 对接 Alluxio

技术共享数栈君 发表了文章 • 0 个评论 • 153 次浏览 • 2024-07-31 15:23 • 来自相关话题

1、概览        Spark 1.1 或更高版本的 Spark可以通过其与 HDFS 兼容的接口直接访问 Alluxio 集群。 使用 Alluxio 作为数据访问层,Spark 应用程序可以透明地访问许多不同类型的持久化存储服务(例如,AWS S3 b... ...查看全部

SpringCloud-实现基于RabbitMQ的消息队列

网友分享数栈君 发表了文章 • 0 个评论 • 115 次浏览 • 2024-07-24 14:15 • 来自相关话题

消息队列是现代分布式系统中常用的通信机制,用于在不同的服务之间传递消息。在Spring Cloud框架中,我们可以利用RabbitMQ实现强大而可靠的消息队列系统。本篇博客将详细介绍如何在Spring Cloud项目中集成RabbitMQ,并创建一个简单的消息... ...查看全部

Spark SQL函数

网友分享数栈君 发表了文章 • 0 个评论 • 154 次浏览 • 2024-07-24 14:11 • 来自相关话题

内置函数 Spark SQL内置了大量的函数,位于API org.apache.spark.sql.functions中。其中大部分函数与Hive中的相同。 使用内置函数有两种方式:一种是通过编程的方式使用;另一种是在SQL语句中使用。- 以编... ...查看全部

动手实践:利用Spark构建个性化推荐系统

知识百科数栈君 发表了文章 • 0 个评论 • 141 次浏览 • 2024-05-14 17:19 • 来自相关话题

Spark性能优化秘籍:让你的集群飞起来

知识百科数栈君 发表了文章 • 0 个评论 • 111 次浏览 • 2024-05-14 17:19 • 来自相关话题

Spark 在袋鼠云数栈的深度探索与实践

产品交流沸羊羊 发表了文章 • 0 个评论 • 250 次浏览 • 2024-04-26 14:34 • 来自相关话题

Spark 是一个快速、通用、可扩展的大数据计算引擎,具有高性能、易用、容错、可以与 Hadoop 生态无缝集成、社区活跃度高等优点。在实际使用中,具有广泛的应用场景:· 数据清洗和预处理:在大数据分析场景下,数据通常需要进行清洗和预处理操作以确保数据质量和一... ...查看全部

袋鼠云的数据湖解决方案选型的是那个框架?Hudi、Iceberg还是Delta Lake

数据中台群内解答 回复了问题 • 1 人关注 • 1 个回复 • 920 次浏览 • 2022-12-21 14:06 • 来自相关话题

大佬们,chunjun,yan-prejob 启动时 会报空,这是什么原因呢

回复

ChunJun匿名用户 发起了问题 • 1 人关注 • 0 个回复 • 345 次浏览 • 2023-05-26 10:41 • 来自相关话题

有没有大佬遇到过 把chunjun-dist 放到 flink lib里面创建 iceberg的连接器失败,去掉就可以创建 ,版本1.16

回复

ChunJun匿名用户 发起了问题 • 1 人关注 • 0 个回复 • 366 次浏览 • 2023-05-26 10:41 • 来自相关话题

问下大家 flink在提交任务后,在源端数据库会有一个进程

回复

ChunJun匿名用户 发起了问题 • 1 人关注 • 0 个回复 • 361 次浏览 • 2023-05-26 10:40 • 来自相关话题

我修改了flink-json的源代码暂时绕过去了

回复

ChunJun群内解答 回复了问题 • 1 人关注 • 2 个回复 • 397 次浏览 • 2023-05-26 10:40 • 来自相关话题

请教各位大佬一个问题哈,目前chunjun支持postgresql数据库11版本备库实时数据同步吗?

回复

ChunJun匿名用户 发起了问题 • 1 人关注 • 0 个回复 • 355 次浏览 • 2023-05-26 10:38 • 来自相关话题

啥时候能把flink cdc的版本提升呀

回复

ChunJun群内解答 回复了问题 • 1 人关注 • 2 个回复 • 387 次浏览 • 2023-05-26 10:29 • 来自相关话题

1.13 和1.16的 json包结构发生了变化;mapper对象修改了不在构造方法中创建了;

回复

ChunJun群内解答 回复了问题 • 1 人关注 • 1 个回复 • 453 次浏览 • 2023-05-26 10:28 • 来自相关话题

有大佬遇到过这个问题吗?使用docker镜像进行ES数据同步,

回复

ChunJun匿名用户 发起了问题 • 1 人关注 • 0 个回复 • 337 次浏览 • 2023-05-26 10:27 • 来自相关话题

Spark内置函数:字符串、日期和时间函数、聚合函数、数值函数、条件判断函数、窗口函数

技术共享数栈君 发表了文章 • 0 个评论 • 23 次浏览 • 5 天前 • 来自相关话题

1.1 字符串concat(col1,col2,......):连接多个字符串列。例如:concat(‘Hello’, ’ ‘, ‘World’)将返回’Hello World’。substring(col,start,length):从给定字符串列中提取子字... ...查看全部

大数据大厂之大数据在能源行业的智能优化变革与展望

技术共享数栈君 发表了文章 • 0 个评论 • 37 次浏览 • 2024-10-28 14:35 • 来自相关话题

一、大数据与能源行业的深度融合:开启智能优化新征程在能源行业这片广袤而复杂的天地里,大数据犹如一座指引方向的灯塔,照亮智能优化的前行之路。当下,能源行业正处于规模急剧扩张与技术深刻变革的关键时期,能源的生产、传输和消费规模呈指数级增长,这一趋势既是机遇的曙光,... ...查看全部

大数据大厂之Kubernetes与大数据:容器化部署的最佳实践

技术共享数栈君 发表了文章 • 0 个评论 • 111 次浏览 • 2024-09-29 16:18 • 来自相关话题

大数据的浩瀚海洋中,Kubernetes 宛如一艘坚固的航船,引领我们在数据的浪潮中稳步前行。一、高效的容器编排1.1 智能化管理Kubernetes 具备强大的自动化管理能力,能够对容器进行精准调度。在大数据处理场景中,可将 Hadoop 的 NameNod... ...查看全部

Spark web UI 介绍

技术共享数栈君 发表了文章 • 0 个评论 • 113 次浏览 • 2024-09-23 15:12 • 来自相关话题

前言在日常的开发工作中,我们总会遇到 Spark 应用运行失败、或是执行效率未达预期的情况。对于这样的问题,想找到根本原因,可以通过 Spark UI 提供的"体检报告"中的一些信息来获取最直接、最直观的线索,本篇就是介绍如何解读Spark UI “体检报告”... ...查看全部

快手自研Spark向量化引擎正式发布,性能提升200%

技术共享数栈君 发表了文章 • 0 个评论 • 164 次浏览 • 2024-09-23 14:52 • 来自相关话题

Blaze 是快手自研的基于Rust语言和DataFusion框架开发的Spark向量化执行引擎,旨在通过本机矢量化执行技术来加速Spark SQL的查询处理。Blaze在快手内部上线的数仓生产作业也观测到了平均30%的算力提升,实现了较大的降本增效。本文将深... ...查看全部

Spark 对接 Alluxio

技术共享数栈君 发表了文章 • 0 个评论 • 153 次浏览 • 2024-07-31 15:23 • 来自相关话题

1、概览        Spark 1.1 或更高版本的 Spark可以通过其与 HDFS 兼容的接口直接访问 Alluxio 集群。 使用 Alluxio 作为数据访问层,Spark 应用程序可以透明地访问许多不同类型的持久化存储服务(例如,AWS S3 b... ...查看全部

SpringCloud-实现基于RabbitMQ的消息队列

网友分享数栈君 发表了文章 • 0 个评论 • 115 次浏览 • 2024-07-24 14:15 • 来自相关话题

消息队列是现代分布式系统中常用的通信机制,用于在不同的服务之间传递消息。在Spring Cloud框架中,我们可以利用RabbitMQ实现强大而可靠的消息队列系统。本篇博客将详细介绍如何在Spring Cloud项目中集成RabbitMQ,并创建一个简单的消息... ...查看全部

Spark SQL函数

网友分享数栈君 发表了文章 • 0 个评论 • 154 次浏览 • 2024-07-24 14:11 • 来自相关话题

内置函数 Spark SQL内置了大量的函数,位于API org.apache.spark.sql.functions中。其中大部分函数与Hive中的相同。 使用内置函数有两种方式:一种是通过编程的方式使用;另一种是在SQL语句中使用。- 以编... ...查看全部

动手实践:利用Spark构建个性化推荐系统

知识百科数栈君 发表了文章 • 0 个评论 • 141 次浏览 • 2024-05-14 17:19 • 来自相关话题

Spark性能优化秘籍:让你的集群飞起来

知识百科数栈君 发表了文章 • 0 个评论 • 111 次浏览 • 2024-05-14 17:19 • 来自相关话题