博客 数据中台之数据集成分析

数据中台之数据集成分析

   数栈君   发表于 2023-05-30 16:36  200  0



建设背景



组织机构在各种业务流程处理中会产生大量的数据,而这些有价值的数据会散落在组织的各种信息化应用系统中。为了使这些数据能够在组织中实现互连互通,达到数据的共享与应用需求,就需要将数据进行集成与再加工。

Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、 Linux、 Unix上运行,绿色无需安装,数据抽取高效稳定。Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。
Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。Kettle中有两种脚本文件,转换和作业,转换完成针对数据的基础转换,作业则完成整个工作流的控制。

本场景就是在Kettle中新建转换来进行数据集成操作。




准备工作



需要提前准备Kettle环境,确保Kettle能够正常运行,需要被采集数据库的访问权限,确保数据能够正常被采集到。

Kettle数据集成分以下五个步骤:

1)登录到资源库。
2)新建转换。
3)添加转换步骤。
4)将写好的sql语句插入到对应步骤中,完成转换。

5)在数据生态平台验证转换是否正确运行。




操作过程



1. 登录到资源库

登录资源库,如下图:
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/6500c933a0a8127496f87cb3d466384a..jpg
2. 新建转换
1)进入Kettle主页后点击左上角【文件】按钮,进入选择界面
如下图:
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/69b34c33dc8af1ccd208f1ac488cd5a5..jpg
2)点击【文件】后点击新建,选择【新建】后点击【新建转换】
如下图:
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/28b1bfcf95c823f1bf1fdd1d7a1049f0..jpg
3)新建DB连接,在DB连接右键选择,在弹出选项中选择【新建】
如下图:
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/98ff60f0aa758a43c31d4e4231b1edc6..jpg
4)在弹出界面中填写【主机名称】,【数据库名称】,【用户名】和【密码】
如下图:
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/7e83a71f80e785884608f0c27f3e52ee..jpg
注:数据库如果已经在DB连接池内,则不需要在添加。
3. 添加转换步骤
1)以表输入为例添加转换步骤。点击左上角【核心对象】,点击【输入】
如下图:
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/f81944a64979884402b2713e83ae9723..jpg
下拉选择【表输入】拉出到工作区,如下图:
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/f35d79efbe3c4ecbcf60fe5d5b165341..jpg
注:可以给表输入起一个别名方便后续在管理中能清晰看出这个表输入由哪张表输入。
2)选择【输出】,选择【表输出】拉出到工作区
如下图:
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/6f753cf42e1e781016c1533d7a747f52..jpg
注:尽量给表输出起一个别名,在后期能清晰看出表输出输出到哪张表。
3)添加Hops(节点连接)将转换步骤连接起来
选择主对象树,选择Hops(节点连接),如下图:
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/5ff921e17b4e7b56a16d7ef401bb05c7..jpg
双击Hops(节点连接),选择对应表输入,表输出。如下图:
选择完成后会有一条线将两个步骤连接起来。
4. 将写好的sql语句插入到对应步骤中,完成转换
1)将提前写好的sql语句插入到表输入中,完成表输入操作
如下图:
2)双击表输出,在弹出界面中选择目标表,也就是需要插入的表,点击【浏览】
如下图:
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/93118f991a8ed56354ec446de92f9b0e..jpg
完成后在选择界面选择对应的表,点击确定。如下图:
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/3001b85d028e704c7d1c0657291c0e8e..jpg
选择好目标表之后,点击【数据库字段】,选择获取字段。如下图:
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/31dd2d34bb1808026415dd6647da74c8..jpg
在弹出界面中选择【清除并添加所有】。如下图:
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/c08fed55bd5e2c30defbd5ffc2074f4c..jpg
3)在完成以上内容后点击左上角文件保存
如下图:
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/3950090aa7895d394fb55c9393f3aef7..jpg
在弹出界面中选择你想要放置的文件路径,名字。如下图:
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/6a4cb3cef2018f295c9cd8fabcab2f13..jpg
5. 在数据生态平台验证转换是否正确运行
1)登录数据生态平台
如下图:
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/31fb14f61ebb42de16a88b3998292fd0..jpg
2)点击ETL资源库,选择刚才保存的ETL流程,点击查看
如下图:
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/96188328467e099c2aebed116f81ca87..jpg
在弹出界面中选择执行。如下图:
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/8ef1639e9e02368ba43d23212b993c4a..jpg
执行开始后点击执行记录,即可看到执行成功或者对应报错信息,如若报错,根据报错信息修改,即可完成此次数据集成操作。

总 结:

数据集成能够改善现有系统的协作和统一,几乎每个部门的员工都在生成和改进其他业务所需的数据,也就对于访问公司共享数据和个人项目数据有了需求,因此就需要一个安全的解决方案,通过所有业务线的自助服务访问来提供数据,用以解决公司不同组织间的协作和统一问题。
数据集成能够提供更有价值的数据,数据集成工作实际上会随着时间的推移提高业务数据的价值。随着数据集成到集中式系统中,可以识别质量问题并实施必要的改进,最终产生更准确的数据质量分析的基础。
数据集成和数据生态平台的结合使用,能够产生更加准确的数据,为这些有价值的数据更好的利用提供条件。

免责申明:

本文系转载,版权归原作者所有,如若侵权请联系我们进行删除!

《数据治理行业实践白皮书》下载地址:https://fs80.cn/4w2atu

《数栈V6.0产品白皮书》下载地址:https://fs80.cn/cw0iw1

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs


同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:https://github.com/DTStack

0条评论
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料
钉钉扫码加入技术交流群