高效批流一体

高效批流一体

数据湖基本概念--什么是数据湖,数据湖又能干什么?为什么是Hudi

网友分享数栈君 发表了文章 • 0 个评论 • 326 次浏览 • 2023-05-24 15:46 • 来自相关话题

一、什么是数据湖 对于经常跟数据打交道的同学,初步听到数据湖这个概念的时候,肯定有点懵,但是相信大家对于数据仓库 这个概念并不陌生。 到了20世纪80年代以后,基于关系型数据库的事务处理成为了企业IT应用的主流。在这个阶段,企业的I... ...查看全部

实践数据湖iceberg:后台运行flink sql 增删改的效果

网友分享数栈君 发表了文章 • 0 个评论 • 380 次浏览 • 2023-03-31 16:25 • 来自相关话题

前言代码中展示FLINK SQL 执行增删改的效果一、JAVA 后台代码1.代码import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;import org.ap... ...查看全部

实践数据湖iceberg:iceberg元数据详细解析

知识百科数栈君 发表了文章 • 0 个评论 • 743 次浏览 • 2023-03-31 16:13 • 来自相关话题

一、元数据管理概要1.每次写入都会成一个snapshot每次写入都会成一个snapshot, 每个snapshot包含着一系列的文件列表2 读写并发原理基于MVCC(Multi Version Concurrency Control)的机制,默认读取文件会从最... ...查看全部

实践数据湖iceberg:flink-sql从checkpoint重启

网友分享数栈君 发表了文章 • 0 个评论 • 657 次浏览 • 2023-03-31 16:13 • 来自相关话题

概要问题描述:前面测试过,直接重启insert任务,下次消费,会全量数据同步一份,并进行增量的监听。多次重启的话,会有很多重复数据。 本课目的:解决这个问题,下次重启从checkpoint中恢复(测试sql的方式, jar包的方式以前测试过,不想测了)。 本课... ...查看全部

实践数据湖iceberg:flink1.13.5 + iceberg0.131 CDC(CRUD测试成功)

网友分享数栈君 发表了文章 • 0 个评论 • 245 次浏览 • 2023-03-31 16:13 • 来自相关话题

概要版本:flink1.13.5, flink-sql-connector-mysql-cdc-2.1.1.jar ,iceberg0.131本课:测试cdc的CRUD,顺利测试通过insert,delete,update,CRUD都通过。重点:CRUD测试通... ...查看全部

实践数据湖iceberg:flink + iceberg CDC场景(版本问题,测试失败)

网友分享数栈君 发表了文章 • 0 个评论 • 831 次浏览 • 2023-03-31 16:12 • 来自相关话题

概要测试flink cdc, 以及数据变化时update数据是如何落地flink1.14.3iceberg0.13.0cdc: 2.2设计测试场景:1. mysql数据准备1.1 准备数据(初始化)create database xxzh_stock char... ...查看全部

实践数据湖iceberg :flink count iceberg,无结果问题

知识百科数栈君 发表了文章 • 0 个评论 • 334 次浏览 • 2023-03-31 16:11 • 来自相关话题

前言flink count iceberg表,查不出结果,问题记录一.flink count iceberg,无结果问题对于分区表:数据是通过flink生成,但无法count(*)计算条数,切换execution.type为streaming、batch分别测... ...查看全部

实践数据湖iceberg:多种客户端与iceberg交互启动命令(常用命令)

网友分享数栈君 发表了文章 • 0 个评论 • 435 次浏览 • 2023-03-31 16:11 • 来自相关话题

一. 启动命令1. spark-sql集成icebergspark on yarn:[root@hadoop101 spark]# bin/spark-sql --packages org.apache.iceberg:iceberg-spark-runtim... ...查看全部

实践数据湖iceberg:hadoop2.7,spark3 on yarn运行iceberg配置

网友分享数栈君 发表了文章 • 0 个评论 • 493 次浏览 • 2023-03-31 16:10 • 来自相关话题

前言spark版本: spark-3.2.0-bin-hadoop2.7hadoop版本: hadoop2.7.21. hadoop2.7 上安装 spark3.2 报错java.lang.NoClassDefFoundError: com/sun/jerse... ...查看全部

实践数据湖iceberg:通过spark3打开iceberg的认知之门

网友分享数栈君 发表了文章 • 0 个评论 • 369 次浏览 • 2023-03-31 16:10 • 来自相关话题

摘要安装spark3.2.0-bin-hadoop3.2.tgz 对应iceberg0.13.0 是目前社区最稳定的版本。(试过spark3.2.1不行)测试spark操作iceberg增删改查以及时间旅游功能1.安装spark3安装前准备: hadoop已经... ...查看全部

ChunJun 2023年第一期版本迭代问题收集

ChunJun群内解答 回复了问题 • 1 人关注 • 9 个回复 • 666 次浏览 • 2023-02-15 11:21 • 来自相关话题

佬麻烦问一下chunjun有根据名称映射传输数据的这个功能吗

回复

ChunJun匿名用户 发起了问题 • 1 人关注 • 0 个回复 • 281 次浏览 • 2023-03-28 11:11 • 来自相关话题

ChunJun 2023年第一期版本迭代问题收集

回复

ChunJun群内解答 回复了问题 • 1 人关注 • 9 个回复 • 666 次浏览 • 2023-02-15 11:21 • 来自相关话题

数据湖基本概念--什么是数据湖,数据湖又能干什么?为什么是Hudi

网友分享数栈君 发表了文章 • 0 个评论 • 326 次浏览 • 2023-05-24 15:46 • 来自相关话题

一、什么是数据湖 对于经常跟数据打交道的同学,初步听到数据湖这个概念的时候,肯定有点懵,但是相信大家对于数据仓库 这个概念并不陌生。 到了20世纪80年代以后,基于关系型数据库的事务处理成为了企业IT应用的主流。在这个阶段,企业的I... ...查看全部

实践数据湖iceberg:后台运行flink sql 增删改的效果

网友分享数栈君 发表了文章 • 0 个评论 • 380 次浏览 • 2023-03-31 16:25 • 来自相关话题

前言代码中展示FLINK SQL 执行增删改的效果一、JAVA 后台代码1.代码import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;import org.ap... ...查看全部

实践数据湖iceberg:iceberg元数据详细解析

知识百科数栈君 发表了文章 • 0 个评论 • 743 次浏览 • 2023-03-31 16:13 • 来自相关话题

一、元数据管理概要1.每次写入都会成一个snapshot每次写入都会成一个snapshot, 每个snapshot包含着一系列的文件列表2 读写并发原理基于MVCC(Multi Version Concurrency Control)的机制,默认读取文件会从最... ...查看全部

实践数据湖iceberg:flink-sql从checkpoint重启

网友分享数栈君 发表了文章 • 0 个评论 • 657 次浏览 • 2023-03-31 16:13 • 来自相关话题

概要问题描述:前面测试过,直接重启insert任务,下次消费,会全量数据同步一份,并进行增量的监听。多次重启的话,会有很多重复数据。 本课目的:解决这个问题,下次重启从checkpoint中恢复(测试sql的方式, jar包的方式以前测试过,不想测了)。 本课... ...查看全部

实践数据湖iceberg:flink1.13.5 + iceberg0.131 CDC(CRUD测试成功)

网友分享数栈君 发表了文章 • 0 个评论 • 245 次浏览 • 2023-03-31 16:13 • 来自相关话题

概要版本:flink1.13.5, flink-sql-connector-mysql-cdc-2.1.1.jar ,iceberg0.131本课:测试cdc的CRUD,顺利测试通过insert,delete,update,CRUD都通过。重点:CRUD测试通... ...查看全部

实践数据湖iceberg:flink + iceberg CDC场景(版本问题,测试失败)

网友分享数栈君 发表了文章 • 0 个评论 • 831 次浏览 • 2023-03-31 16:12 • 来自相关话题

概要测试flink cdc, 以及数据变化时update数据是如何落地flink1.14.3iceberg0.13.0cdc: 2.2设计测试场景:1. mysql数据准备1.1 准备数据(初始化)create database xxzh_stock char... ...查看全部

实践数据湖iceberg :flink count iceberg,无结果问题

知识百科数栈君 发表了文章 • 0 个评论 • 334 次浏览 • 2023-03-31 16:11 • 来自相关话题

前言flink count iceberg表,查不出结果,问题记录一.flink count iceberg,无结果问题对于分区表:数据是通过flink生成,但无法count(*)计算条数,切换execution.type为streaming、batch分别测... ...查看全部

实践数据湖iceberg:多种客户端与iceberg交互启动命令(常用命令)

网友分享数栈君 发表了文章 • 0 个评论 • 435 次浏览 • 2023-03-31 16:11 • 来自相关话题

一. 启动命令1. spark-sql集成icebergspark on yarn:[root@hadoop101 spark]# bin/spark-sql --packages org.apache.iceberg:iceberg-spark-runtim... ...查看全部

实践数据湖iceberg:hadoop2.7,spark3 on yarn运行iceberg配置

网友分享数栈君 发表了文章 • 0 个评论 • 493 次浏览 • 2023-03-31 16:10 • 来自相关话题

前言spark版本: spark-3.2.0-bin-hadoop2.7hadoop版本: hadoop2.7.21. hadoop2.7 上安装 spark3.2 报错java.lang.NoClassDefFoundError: com/sun/jerse... ...查看全部

实践数据湖iceberg:通过spark3打开iceberg的认知之门

网友分享数栈君 发表了文章 • 0 个评论 • 369 次浏览 • 2023-03-31 16:10 • 来自相关话题

摘要安装spark3.2.0-bin-hadoop3.2.tgz 对应iceberg0.13.0 是目前社区最稳定的版本。(试过spark3.2.1不行)测试spark操作iceberg增删改查以及时间旅游功能1.安装spark3安装前准备: hadoop已经... ...查看全部