flink

flink

Pyspark中RDD常用方法

网友分享数栈君 发表了文章 • 0 个评论 • 44 次浏览 • 2024-11-20 10:41 • 来自相关话题

RDD 基本操作Ⅰ.常见的转化操作mapmap(func, preservesPartitioning=False)最基本的转化操作,对数据集中的每一个元素,应用一个具名/匿名 函数进行才处理; 一个或多个map可以异步进行,因为它们不会产生副作用。rdd =... ...查看全部

RDD的概念及Pyspark操作RDD

网友分享数栈君 发表了文章 • 0 个评论 • 45 次浏览 • 2024-11-19 10:44 • 来自相关话题

1.简介RDD(弹性分布式数据集) 是 PySpark 的基本构建块,它是容错、不可变的 分布式对象集合。换句话说,RDD 是类似于 Python 中的列表的对象集合,不同之处在于 RDD 是在分散在多个物理服务器上的多个进程上计算的,也称为集群中的节点,而 ... ...查看全部

PySpark操作DataFrame常用方法(上)

网友分享数栈君 发表了文章 • 0 个评论 • 39 次浏览 • 2024-11-18 16:21 • 来自相关话题

PYSPARK DataFrame 操作.na在 PySpark 中,DataFrame 的 .na 属性用于处理缺失值(NaN、null 或空值)。.na 属性提供了一组方法来处理和操作缺失值。以下是一些常用的方法:1.drop()删除包含任何缺失值的行df... ...查看全部

PySpark操作DataFrame常用方法(下)

网友分享数栈君 发表了文章 • 0 个评论 • 39 次浏览 • 2024-11-18 16:19 • 来自相关话题

CAST()在 PySpark 中,cast 函数用于将 DataFrame 或列中的数据类型转换为所需的数据类型。它可以用于将某个列的数据类型更改为其他类型,或者在查询中对特定表达式进行类型转换。使用 cast 函数的一般语法如下:df.withColumn... ...查看全部

通过Flink读写云原生数据仓库AnalyticDB PostgreSQL版(ADB PG)数据

知识百科数栈君 发表了文章 • 0 个评论 • 55 次浏览 • 2024-11-18 15:39 • 来自相关话题

本文介绍如何通过阿里云实时计算Flink版实时读写云原生数据仓库AnalyticDB PostgreSQL版数据。背景信息云原生数据仓库AnalyticDB PostgreSQL版是一种大规模并行处理(MPP)数据仓库服务,可提供海量数据在线分析服务。实时计算... ...查看全部

Apache Kudu 从 Flink 下沉数据到 Kudu

技术共享数栈君 发表了文章 • 0 个评论 • 61 次浏览 • 2024-11-05 14:45 • 来自相关话题

实现思路将数据从 Flink 下沉到 Kudu 的基本思路如下:环境准备:确保 Flink 和 Kudu 环境正常运行,并配置好相关依赖。创建 Kudu 表:在 Kudu 中定义要存储的数据表,包括主键和列类型。数据流设计:使用 Flink 的 DataStr... ...查看全部

Flink向Doris表写入数据(Sink)

网友分享数栈君 发表了文章 • 0 个评论 • 1135 次浏览 • 2024-07-31 15:12 • 来自相关话题

业务场景最近在工作中遇到了Flink处理kafka中的数据,最后写入Doris存储的场景。Apache Doris 是一款基于 MPP 架构的高性能、实时的分析型数据库,以高效、简单、统一的特点被人们所熟知,仅需亚秒级响应时间即可返回海量数据下的查询结果,不仅... ...查看全部

flink sql 批处理

技术共享数栈君 发表了文章 • 0 个评论 • 316 次浏览 • 2024-06-27 19:22 • 来自相关话题

进入flink sql命令行Bashsql-client.shSource 表        与所有 SQL 引擎一样,Flink 查询操作是在表上进行。与传统数据库不同,Flink 不在本地管理静态数据;相反,它的查询在外部表上连续运行。       Fli... ...查看全部

canal原理及使用

技术共享数栈君 发表了文章 • 0 个评论 • 239 次浏览 • 2024-06-26 11:15 • 来自相关话题

什么是canalcanal,主要用途是基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费。这里我们可以简单地把canal理解为一个用来同步增量数据的一个工具。工作原理MySQL主备复制原理MySQL master 将数据变更写入二进制日志( bina... ...查看全部

FLink-Canal

技术共享数栈君 发表了文章 • 0 个评论 • 191 次浏览 • 2024-06-25 10:41 • 来自相关话题

canal formatCanal 是一个 CDC(ChangeLog Data Capture,变更日志数据捕获)工具,可以实时地将 MySQL 变更传输到其他系统。Canal 为变更日志提供了统一的数据格式,并支持使用 JSON 或 protobuf 序列... ...查看全部

“数据驱动”时代,企业为什么需要实时湖仓?

产品交流数栈君 发表了文章 • 0 个评论 • 1715 次浏览 • 2023-09-05 17:42 • 来自相关话题

当谈到数据湖的时候,大家都在说,可以把所有数据(结构化/半结构化/非结构化)一股脑都丢进去,进行统一的元数据管理。然后上层计算对接,进行流批计算/OLAP 分析/算法分析。这个没问题,数据湖确实能承接底层的这部分能力,但是同时出现的问题也是不容忽视的。本文将关... ...查看全部

倒带ChunJun,同心前行|2022年度回顾&2023年共建规划

ChunJun数栈君 发表了文章 • 0 个评论 • 847 次浏览 • 2023-02-15 10:27 • 来自相关话题

ChunJun是一个开始于2018年的批流一体数据集成框架项目,原名FlinkX。2022年2月22日,在FlinkX进行初版开源的整整四年后,技术团队决定对FlinkX进行整体升级,并更名为ChunJun,希望为大家真正提供一个稳定、高效、易用的批流一体的数... ...查看全部

ChunJun 2023年第一期版本迭代问题收集

ChunJun群内解答 回复了问题 • 1 人关注 • 9 个回复 • 1238 次浏览 • 2023-02-15 11:21 • 来自相关话题

袋鼠云基于Calcite框架的SQL语法扩展探索

技术共享数栈君 发表了文章 • 0 个评论 • 657 次浏览 • 2023-01-16 16:47 • 来自相关话题

Calcite在大数据系统中有着广泛的运用, 比如Apache Flink, Apache Drill等都大量使用了Calcite,理解Calcite的原理可以说已经成为理解大数据系统中SQL访问层实现原理的必备条件之一。但是不少人在学习Calcite的过程中... ...查看全部

袋鼠云的数据湖解决方案选型的是那个框架?Hudi、Iceberg还是Delta Lake

数据中台群内解答 回复了问题 • 1 人关注 • 1 个回复 • 961 次浏览 • 2022-12-21 14:06 • 来自相关话题

12月8日直播预告丨ChunJun数据安全—Kerberos介绍

ChunJun数栈君 发表了文章 • 0 个评论 • 651 次浏览 • 2022-12-07 16:25 • 来自相关话题

1直播介绍本次直播我们将为大家介绍ChunJun的数据安全验证——Kerberos介绍,我们将从 Kerberos 的概念开始介绍ChunJun 任务提交过程中涉及到的 Kerberos 认证以及数据同步任务运行中是如何进行 Kerberos 认证的。通过本次... ...查看全部

开源共建 | TIS整合数据同步工具ChunJun,携手完善开源生态

ChunJun数栈君 发表了文章 • 0 个评论 • 1069 次浏览 • 2022-11-30 10:10 • 来自相关话题

TIS整合ChunJun实操B站视频:https://www.bilibili.com/video/BV1QM411z7w5/?spm_id_from=333.999.0.001ChunJun 概述ChunJun是一款易用、稳定、高效的批流统一的数据集成框架,... ...查看全部

开源共建 | 中国移动冯江涛:ChunJun(原FlinkX)在数据入湖中的应用

ChunJun小美 发表了文章 • 0 个评论 • 796 次浏览 • 2022-11-23 10:45 • 来自相关话题

ChunJun(原 FlinkX)是一个基于 Flink 提供易用、稳定、高效的批流统一的数据集成工具。2018 年 4 月,秉承着开源共享的理念,数栈技术团队在 github 上开源了 FlinkX,承蒙各位开发者的合作共建,FlinkX 得到了快速发展。两... ...查看全部

老哥,请教一下,咱们的框架支持数据的同步过程中的转换操作不。还是必须得端到端字段一一对应。

回复

ChunJun匿名用户 发起了问题 • 1 人关注 • 0 个回复 • 444 次浏览 • 2023-08-31 17:59 • 来自相关话题

按照教程maven编译后报错,是我的姿势不太对么,请教一下。1.12.8版本

回复

ChunJun群内解答 回复了问题 • 1 人关注 • 1 个回复 • 459 次浏览 • 2023-08-31 17:59 • 来自相关话题

flink SQL的状态初始化是在哪个源码实现的?找了很久没有看到相似的?大佬指点一下

回复

ChunJun匿名用户 发起了问题 • 1 人关注 • 0 个回复 • 447 次浏览 • 2023-08-31 17:58 • 来自相关话题

老师您好,我提交一个mysql到hdfs任务后报错,是包没更新到最新吗

回复

ChunJun群内解答 回复了问题 • 1 人关注 • 3 个回复 • 490 次浏览 • 2023-08-31 17:58 • 来自相关话题

为什么我查的mysql中的ADD是一个保留字,但是却在非保留关键字里出现了呢?

回复

ChunJun群内解答 回复了问题 • 1 人关注 • 3 个回复 • 448 次浏览 • 2023-08-31 17:57 • 来自相关话题

大佬们,chunjun框架支持数据etl过程,即数据的转换计算过程

回复

ChunJun匿名用户 发起了问题 • 1 人关注 • 0 个回复 • 411 次浏览 • 2023-08-31 17:57 • 来自相关话题

这段是有解决过网络抖动的问题吗

回复

ChunJun匿名用户 发起了问题 • 1 人关注 • 0 个回复 • 419 次浏览 • 2023-08-31 17:55 • 来自相关话题

这个错误能忽略不?也不知道啥问题

回复

ChunJun匿名用户 发起了问题 • 1 人关注 • 0 个回复 • 414 次浏览 • 2023-08-31 17:54 • 来自相关话题

另外请问一下binlogreader和mysqlcdcreader在实现方式上有什么区别

回复

ChunJun匿名用户 发起了问题 • 1 人关注 • 0 个回复 • 409 次浏览 • 2023-08-31 17:54 • 来自相关话题

请问http源怎么配动态参数,比如分页

回复

ChunJun匿名用户 发起了问题 • 1 人关注 • 0 个回复 • 387 次浏览 • 2023-08-31 17:53 • 来自相关话题

Pyspark中RDD常用方法

网友分享数栈君 发表了文章 • 0 个评论 • 44 次浏览 • 2024-11-20 10:41 • 来自相关话题

RDD 基本操作Ⅰ.常见的转化操作mapmap(func, preservesPartitioning=False)最基本的转化操作,对数据集中的每一个元素,应用一个具名/匿名 函数进行才处理; 一个或多个map可以异步进行,因为它们不会产生副作用。rdd =... ...查看全部

RDD的概念及Pyspark操作RDD

网友分享数栈君 发表了文章 • 0 个评论 • 45 次浏览 • 2024-11-19 10:44 • 来自相关话题

1.简介RDD(弹性分布式数据集) 是 PySpark 的基本构建块,它是容错、不可变的 分布式对象集合。换句话说,RDD 是类似于 Python 中的列表的对象集合,不同之处在于 RDD 是在分散在多个物理服务器上的多个进程上计算的,也称为集群中的节点,而 ... ...查看全部

PySpark操作DataFrame常用方法(上)

网友分享数栈君 发表了文章 • 0 个评论 • 39 次浏览 • 2024-11-18 16:21 • 来自相关话题

PYSPARK DataFrame 操作.na在 PySpark 中,DataFrame 的 .na 属性用于处理缺失值(NaN、null 或空值)。.na 属性提供了一组方法来处理和操作缺失值。以下是一些常用的方法:1.drop()删除包含任何缺失值的行df... ...查看全部

PySpark操作DataFrame常用方法(下)

网友分享数栈君 发表了文章 • 0 个评论 • 39 次浏览 • 2024-11-18 16:19 • 来自相关话题

CAST()在 PySpark 中,cast 函数用于将 DataFrame 或列中的数据类型转换为所需的数据类型。它可以用于将某个列的数据类型更改为其他类型,或者在查询中对特定表达式进行类型转换。使用 cast 函数的一般语法如下:df.withColumn... ...查看全部

通过Flink读写云原生数据仓库AnalyticDB PostgreSQL版(ADB PG)数据

知识百科数栈君 发表了文章 • 0 个评论 • 55 次浏览 • 2024-11-18 15:39 • 来自相关话题

本文介绍如何通过阿里云实时计算Flink版实时读写云原生数据仓库AnalyticDB PostgreSQL版数据。背景信息云原生数据仓库AnalyticDB PostgreSQL版是一种大规模并行处理(MPP)数据仓库服务,可提供海量数据在线分析服务。实时计算... ...查看全部

Apache Kudu 从 Flink 下沉数据到 Kudu

技术共享数栈君 发表了文章 • 0 个评论 • 61 次浏览 • 2024-11-05 14:45 • 来自相关话题

实现思路将数据从 Flink 下沉到 Kudu 的基本思路如下:环境准备:确保 Flink 和 Kudu 环境正常运行,并配置好相关依赖。创建 Kudu 表:在 Kudu 中定义要存储的数据表,包括主键和列类型。数据流设计:使用 Flink 的 DataStr... ...查看全部

Flink向Doris表写入数据(Sink)

网友分享数栈君 发表了文章 • 0 个评论 • 1135 次浏览 • 2024-07-31 15:12 • 来自相关话题

业务场景最近在工作中遇到了Flink处理kafka中的数据,最后写入Doris存储的场景。Apache Doris 是一款基于 MPP 架构的高性能、实时的分析型数据库,以高效、简单、统一的特点被人们所熟知,仅需亚秒级响应时间即可返回海量数据下的查询结果,不仅... ...查看全部

flink sql 批处理

技术共享数栈君 发表了文章 • 0 个评论 • 316 次浏览 • 2024-06-27 19:22 • 来自相关话题

进入flink sql命令行Bashsql-client.shSource 表        与所有 SQL 引擎一样,Flink 查询操作是在表上进行。与传统数据库不同,Flink 不在本地管理静态数据;相反,它的查询在外部表上连续运行。       Fli... ...查看全部

canal原理及使用

技术共享数栈君 发表了文章 • 0 个评论 • 239 次浏览 • 2024-06-26 11:15 • 来自相关话题

什么是canalcanal,主要用途是基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费。这里我们可以简单地把canal理解为一个用来同步增量数据的一个工具。工作原理MySQL主备复制原理MySQL master 将数据变更写入二进制日志( bina... ...查看全部

FLink-Canal

技术共享数栈君 发表了文章 • 0 个评论 • 191 次浏览 • 2024-06-25 10:41 • 来自相关话题

canal formatCanal 是一个 CDC(ChangeLog Data Capture,变更日志数据捕获)工具,可以实时地将 MySQL 变更传输到其他系统。Canal 为变更日志提供了统一的数据格式,并支持使用 JSON 或 protobuf 序列... ...查看全部