组织机构在各种业务流程处理中会产生大量的数据,而这些有价值的数据会散落在组织的各种信息化应用系统中。为了使这些数据能够在组织中实现互连互通,达到数据的共享与应用需求,就需要将数据进行集成与再加工。
Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、 Linux、 Unix上运行,绿色无需安装,数据抽取高效稳定。Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。
Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。Kettle中有两种脚本文件,转换和作业,转换完成针对数据的基础转换,作业则完成整个工作流的控制。
本场景就是在Kettle中新建转换来进行数据集成操作。
需要提前准备Kettle环境,确保Kettle能够正常运行,需要被采集数据库的访问权限,确保数据能够正常被采集到。
Kettle数据集成分以下五个步骤:
1)登录到资源库。
2)新建转换。
3)添加转换步骤。
4)将写好的sql语句插入到对应步骤中,完成转换。
5)在数据生态平台验证转换是否正确运行。
1. 登录到资源库
登录资源库,如下图:
2. 新建转换
1)进入Kettle主页后点击左上角【文件】按钮,进入选择界面
如下图:
2)点击【文件】后点击新建,选择【新建】后点击【新建转换】
如下图:
3)新建DB连接,在DB连接右键选择,在弹出选项中选择【新建】
如下图:
4)在弹出界面中填写【主机名称】,【数据库名称】,【用户名】和【密码】
如下图:
注:数据库如果已经在DB连接池内,则不需要在添加。
3. 添加转换步骤
1)以表输入为例添加转换步骤。点击左上角【核心对象】,点击【输入】
如下图:
下拉选择【表输入】拉出到工作区,如下图:
注:可以给表输入起一个别名方便后续在管理中能清晰看出这个表输入由哪张表输入。
2)选择【输出】,选择【表输出】拉出到工作区
如下图:
注:尽量给表输出起一个别名,在后期能清晰看出表输出输出到哪张表。
3)添加Hops(节点连接)将转换步骤连接起来
选择主对象树,选择Hops(节点连接),如下图:
双击Hops(节点连接),选择对应表输入,表输出。如下图:
选择完成后会有一条线将两个步骤连接起来。
4. 将写好的sql语句插入到对应步骤中,完成转换
1)将提前写好的sql语句插入到表输入中,完成表输入操作
如下图:
2)双击表输出,在弹出界面中选择目标表,也就是需要插入的表,点击【浏览】
如下图:
完成后在选择界面选择对应的表,点击确定。如下图:
选择好目标表之后,点击【数据库字段】,选择获取字段。如下图:
在弹出界面中选择【清除并添加所有】。如下图:
3)在完成以上内容后点击左上角文件保存
如下图:
在弹出界面中选择你想要放置的文件路径,名字。如下图:
5. 在数据生态平台验证转换是否正确运行
1)登录数据生态平台
如下图:
2)点击ETL资源库,选择刚才保存的ETL流程,点击查看
如下图:
在弹出界面中选择执行。如下图:
执行开始后点击执行记录,即可看到执行成功或者对应报错信息,如若报错,根据报错信息修改,即可完成此次数据集成操作。
总 结:
数据集成能够改善现有系统的协作和统一,几乎每个部门的员工都在生成和改进其他业务所需的数据,也就对于访问公司共享数据和个人项目数据有了需求,因此就需要一个安全的解决方案,通过所有业务线的自助服务访问来提供数据,用以解决公司不同组织间的协作和统一问题。
数据集成能够提供更有价值的数据,数据集成工作实际上会随着时间的推移提高业务数据的价值。随着数据集成到集中式系统中,可以识别质量问题并实施必要的改进,最终产生更准确的数据质量分析的基础。
数据集成和数据生态平台的结合使用,能够产生更加准确的数据,为这些有价值的数据更好的利用提供条件。