hdfs 没有增量同步的逻辑,都是把指定目录下的内容完整同步掉。你说的子分区同步的情况:我们是根据调度来配置的,调度可以根据调度时间(有表达式)可以配置你要的格式,来执行不同的分区数据的抽取,
你可以看下taier 上有类似的实现、、
想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs
同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:
https://github.com/DTStack/chunjun
0 0