批流一体

批流一体

如何构建新一代实时湖仓?袋鼠云基于数据湖的探索升级之路

产品交流数栈君 发表了文章 • 0 个评论 • 334 次浏览 • 2023-11-10 11:45 • 来自相关话题

在之前的实时湖仓系列文章中,我们已经介绍了实时湖仓对于当前企业数字化转型的重要性,实时湖仓的功能架构设计,以及实时计算和数据湖结合的应用场景。在本篇文章中,将介绍袋鼠云数栈在构建实时湖仓系统上的探索与落地实践,及未来规划。数栈为什么选择实时湖仓数栈作为一个数据... ...查看全部

大佬们,早上好,我在1.12.8上做logminner然后发现nameMapping配置了未能生效,输出还是原表信息,大佬们有无遇到这个问题

ChunJun150****6033 回复了问题 • 1 人关注 • 1 个回复 • 265 次浏览 • 2023-10-26 14:36 • 来自相关话题

“数据驱动”时代,企业为什么需要实时湖仓?

产品交流数栈君 发表了文章 • 0 个评论 • 633 次浏览 • 2023-09-05 17:42 • 来自相关话题

当谈到数据湖的时候,大家都在说,可以把所有数据(结构化/半结构化/非结构化)一股脑都丢进去,进行统一的元数据管理。然后上层计算对接,进行流批计算/OLAP 分析/算法分析。这个没问题,数据湖确实能承接底层的这部分能力,但是同时出现的问题也是不容忽视的。本文将关... ...查看全部

流批一体 湖仓一体

知识百科沸羊羊 发表了文章 • 0 个评论 • 170 次浏览 • 2023-08-08 09:41 • 来自相关话题

大佬这是啥问题,install一直显示这个问题

Taier群内解答 回复了问题 • 1 人关注 • 1 个回复 • 234 次浏览 • 2023-07-20 19:23 • 来自相关话题

请教下这里为什么要加上这个, ,现在这个导致拼接出来的名称校验通不过~~

ChunJun群内解答 回复了问题 • 1 人关注 • 3 个回复 • 249 次浏览 • 2023-07-20 19:20 • 来自相关话题

chunjun支持saphana增量同步吗?

ChunJun群内解答 回复了问题 • 1 人关注 • 2 个回复 • 265 次浏览 • 2023-07-20 19:12 • 来自相关话题

而且失败了checkpoint 重试了,jobid 没变的情况下又来了一个!

回复

ChunJun匿名用户 发起了问题 • 1 人关注 • 0 个回复 • 232 次浏览 • 2023-07-20 19:12 • 来自相关话题

为什么推送到Pushgateway的Jobid 跟实际的 jobid 对不上。。。

回复

ChunJun匿名用户 发起了问题 • 1 人关注 • 0 个回复 • 216 次浏览 • 2023-07-20 19:11 • 来自相关话题

chunjun对cdh6.3.2中的hive orc parquet 表支持貌似不行啊,有小伙伴有经验么?

回复

ChunJun匿名用户 发起了问题 • 1 人关注 • 0 个回复 • 244 次浏览 • 2023-07-20 19:09 • 来自相关话题

如何构建新一代实时湖仓?袋鼠云基于数据湖的探索升级之路

产品交流数栈君 发表了文章 • 0 个评论 • 334 次浏览 • 2023-11-10 11:45 • 来自相关话题

在之前的实时湖仓系列文章中,我们已经介绍了实时湖仓对于当前企业数字化转型的重要性,实时湖仓的功能架构设计,以及实时计算和数据湖结合的应用场景。在本篇文章中,将介绍袋鼠云数栈在构建实时湖仓系统上的探索与落地实践,及未来规划。数栈为什么选择实时湖仓数栈作为一个数据... ...查看全部

“数据驱动”时代,企业为什么需要实时湖仓?

产品交流数栈君 发表了文章 • 0 个评论 • 633 次浏览 • 2023-09-05 17:42 • 来自相关话题

当谈到数据湖的时候,大家都在说,可以把所有数据(结构化/半结构化/非结构化)一股脑都丢进去,进行统一的元数据管理。然后上层计算对接,进行流批计算/OLAP 分析/算法分析。这个没问题,数据湖确实能承接底层的这部分能力,但是同时出现的问题也是不容忽视的。本文将关... ...查看全部

大佬这是啥问题,install一直显示这个问题

回复

Taier群内解答 回复了问题 • 1 人关注 • 1 个回复 • 234 次浏览 • 2023-07-20 19:23 • 来自相关话题

请教下这里为什么要加上这个, ,现在这个导致拼接出来的名称校验通不过~~

回复

ChunJun群内解答 回复了问题 • 1 人关注 • 3 个回复 • 249 次浏览 • 2023-07-20 19:20 • 来自相关话题

chunjun支持saphana增量同步吗?

回复

ChunJun群内解答 回复了问题 • 1 人关注 • 2 个回复 • 265 次浏览 • 2023-07-20 19:12 • 来自相关话题

而且失败了checkpoint 重试了,jobid 没变的情况下又来了一个!

回复

ChunJun匿名用户 发起了问题 • 1 人关注 • 0 个回复 • 232 次浏览 • 2023-07-20 19:12 • 来自相关话题

为什么推送到Pushgateway的Jobid 跟实际的 jobid 对不上。。。

回复

ChunJun匿名用户 发起了问题 • 1 人关注 • 0 个回复 • 216 次浏览 • 2023-07-20 19:11 • 来自相关话题

chunjun对cdh6.3.2中的hive orc parquet 表支持貌似不行啊,有小伙伴有经验么?

回复

ChunJun匿名用户 发起了问题 • 1 人关注 • 0 个回复 • 244 次浏览 • 2023-07-20 19:09 • 来自相关话题

kafka数据源是包含子json,这个咋拆分,要入两张hive表?

回复

ChunJun匿名用户 发起了问题 • 1 人关注 • 0 个回复 • 229 次浏览 • 2023-07-13 13:52 • 来自相关话题

如何构建新一代实时湖仓?袋鼠云基于数据湖的探索升级之路

产品交流数栈君 发表了文章 • 0 个评论 • 334 次浏览 • 2023-11-10 11:45 • 来自相关话题

在之前的实时湖仓系列文章中,我们已经介绍了实时湖仓对于当前企业数字化转型的重要性,实时湖仓的功能架构设计,以及实时计算和数据湖结合的应用场景。在本篇文章中,将介绍袋鼠云数栈在构建实时湖仓系统上的探索与落地实践,及未来规划。数栈为什么选择实时湖仓数栈作为一个数据... ...查看全部

“数据驱动”时代,企业为什么需要实时湖仓?

产品交流数栈君 发表了文章 • 0 个评论 • 633 次浏览 • 2023-09-05 17:42 • 来自相关话题

当谈到数据湖的时候,大家都在说,可以把所有数据(结构化/半结构化/非结构化)一股脑都丢进去,进行统一的元数据管理。然后上层计算对接,进行流批计算/OLAP 分析/算法分析。这个没问题,数据湖确实能承接底层的这部分能力,但是同时出现的问题也是不容忽视的。本文将关... ...查看全部

流批一体 湖仓一体

知识百科沸羊羊 发表了文章 • 0 个评论 • 170 次浏览 • 2023-08-08 09:41 • 来自相关话题

delta lake、hudi、iceberg分别是解决数据湖构建的哪些问题?

网友分享数栈君 发表了文章 • 0 个评论 • 363 次浏览 • 2023-05-25 11:18 • 来自相关话题

“数据湖”、“湖仓一体”及“流批一体”等概念,是近年来大数据领域热度最高的词汇,在各大互联网公司掀起了一波波的热潮,各家公司纷纷推出了自己的技术方案。在2020年末,袋鼠云技术团队做了众多技术方案的调研,包括包括Delta Lake、Hudi、Iceberg,... ...查看全部

数据湖基本概念--什么是数据湖,数据湖又能干什么?为什么是Hudi

网友分享数栈君 发表了文章 • 0 个评论 • 324 次浏览 • 2023-05-24 15:46 • 来自相关话题

一、什么是数据湖 对于经常跟数据打交道的同学,初步听到数据湖这个概念的时候,肯定有点懵,但是相信大家对于数据仓库 这个概念并不陌生。 到了20世纪80年代以后,基于关系型数据库的事务处理成为了企业IT应用的主流。在这个阶段,企业的I... ...查看全部

实践数据湖iceberg:后台运行flink sql 增删改的效果

网友分享数栈君 发表了文章 • 0 个评论 • 375 次浏览 • 2023-03-31 16:25 • 来自相关话题

前言代码中展示FLINK SQL 执行增删改的效果一、JAVA 后台代码1.代码import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;import org.ap... ...查看全部

实践数据湖iceberg:iceberg元数据详细解析

知识百科数栈君 发表了文章 • 0 个评论 • 740 次浏览 • 2023-03-31 16:13 • 来自相关话题

一、元数据管理概要1.每次写入都会成一个snapshot每次写入都会成一个snapshot, 每个snapshot包含着一系列的文件列表2 读写并发原理基于MVCC(Multi Version Concurrency Control)的机制,默认读取文件会从最... ...查看全部

实践数据湖iceberg:flink-sql从checkpoint重启

网友分享数栈君 发表了文章 • 0 个评论 • 655 次浏览 • 2023-03-31 16:13 • 来自相关话题

概要问题描述:前面测试过,直接重启insert任务,下次消费,会全量数据同步一份,并进行增量的监听。多次重启的话,会有很多重复数据。 本课目的:解决这个问题,下次重启从checkpoint中恢复(测试sql的方式, jar包的方式以前测试过,不想测了)。 本课... ...查看全部

实践数据湖iceberg:flink1.13.5 + iceberg0.131 CDC(CRUD测试成功)

网友分享数栈君 发表了文章 • 0 个评论 • 243 次浏览 • 2023-03-31 16:13 • 来自相关话题

概要版本:flink1.13.5, flink-sql-connector-mysql-cdc-2.1.1.jar ,iceberg0.131本课:测试cdc的CRUD,顺利测试通过insert,delete,update,CRUD都通过。重点:CRUD测试通... ...查看全部

实践数据湖iceberg:flink1.13.5 + iceberg0.131 CDC(测试成功INSERT,变更操作失败)

知识百科数栈君 发表了文章 • 0 个评论 • 202 次浏览 • 2023-03-31 16:12 • 来自相关话题