博客 实践数据湖iceberg: catalog是什么

实践数据湖iceberg: catalog是什么

   数栈君   发表于 2023-03-30 10:05  1557  0

1. 从建立catalog的语句,了解catalog

建catalog,db,表的语句。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/2433ca52a275e9473a816f257b0060a9..png

catalog只是声明了,该catalog的文件存储格式是iceberg以及在hive中实际存储的路径。
使用哪个catalog,就是使用对应的数据格式、以及文件存储路径
具体的表需要建立在不同的database上。
database只需建立一次(例如mysql)。
catalog每次进入客户端都需要建一次catalog.

2.hiveCatalog与hadoopCatalog异同
相同点: 都在hadoop上创建元数据
不同点:hiveCatalog会把元数据写一份到hive的metadata中
删除表时:直接删除hiveCatalog对应的hadoop文件,再用sql drop表会报错(报错信息大意是:通过元数据找到表,但hdfs的文件已经不存在)。

3.通过hive客户端访问iceberg

hive支持catalog的语法,能show database,use db, show tables;查到里面的表


总结

catalog只是声明了,该catalog的文件存储格式是iceberg以及在hive中实际存储的路径。


内容来源于网络,如侵删。


近日,袋鼠云重磅发布《数据治理行业实践白皮书》,白皮书基于袋鼠云在数据治理领域的8年深厚积累与实践服务经验,从专业视角逐步剖析数据治理难题,阐述数据治理的概念内涵、目标价值、实施路线、保障体系与平台工具,并借助行业实践案例解析,为广大读者提供一种数据治理新思路。

扫码下载《数据治理行业实践白皮书》,下载地址:https://fs80.cn/4w2atuhttp://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/a68b0e7b1a6c2b9cb4f647f1281a9f1c..png



想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:
https://www.dtstack.com/?src=bbs

同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:
https://github.com/DTStack

0条评论
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料
钉钉扫码加入技术交流群