一文读懂企业数据中台工具平台层,数据中台建设是一项宏伟的工程,涉及整体规划、组织建设、中台落地和运营等各个方面的工作,本节重点从物理形态讲述企业数据中台应如何建设。一般来说,企业的数据中心台在物理形态上分为工具平台层、数据资产层和数据应用层三大层。
数据中的桌子包括什么?详细了解结构的设计和构成。
工具平台层是数据中台的载体,包括大数据处理的基础能力技术,如集数据收集、数据存储、数据计算、数据安全等于一体的大数据平台,还包括离线或实时数据开发工具、数据连通工具、标签计算工具、算法平台工具、数据服务工具、自助分析工具等一系列建设数据中台的工具。
以上工具集基本复盖了数据中心的数据加工过程。
企业数据中台工具平台层
1)数据开发平台。
大数据的4V特点[1]决定了数据处理是一项复杂的工程。建设数据中心台需要建设建设数据中心台的基础设施工具,满足各种结构化、非结构化数据的收集、存储和处理,根据场景处理离线和实时数据的计算和存储,连接数据处理任务,保障数据的运行
[1]大数据的4V是Volume(数据量大)、Variety(类型多)、Velocity(速度快、效率高)、Value(价值密度低)。
因此,首先需要建立大的数据能力平台。当然,可以根据企业的实际情况决定是采购还是自营平台。
2)数据理财。
数据中台建设的成功与数据资产管理是否有序有直接关系。前面提到,数据中心需要持续运行。随着时间的推移,数据不断涌入数据中心,如果没有整齐的数据资产平台进行管理,结果将无法想象。
数据资产管理工具可以帮助企业合理评价、规范和管理信息资产,发挥数据资产价值,促进数据资产的持续增值。对于数据理财,我们不建议事后管理,而是要与数据研发过程联动。也就是说,当数据经过数据开发平台加工的链接时,数据理财平台已经无声介入。
数据资产管理的首要任务是管理进入数据中心的元数据,这里的元数据包括数据来源、建设的各种模型、用模型分解的指标和标签和调度作业。有序管理这些数据资产的元数据是前提条件,只有做好这一步,才能继续追踪数据流程,管理指标、标签系统的生命周期,确定指标的使用频率,决定是否离线。
3)标签工厂。
标签厂又称标签平台,是数据中台系统内的明星工具类产品。标签建设是数据中心走向数据业务化的重要步骤。因此,强大的标签工厂是数据中台价值表现的有力保障。
严格来说,标签工厂也是数据开发平台的一部分,为什么要单独剥离呢?这是因为标签的使用场景丰富,标签与业务紧密结合的同时,标签数据的存储与分析型数据的存储存在一定差异。
标签厂致力于屏蔽底层复杂的大数据框架,为普通开发人员、数据分析师、运营人员提供友好的界面互动配置,完成标签的全生命周期管理,同时为上层业务系统提供自己的API能力,与各业务系统形成数据闭环。
标签工厂根据功能一般分为下层标签计算引擎和上层标签配置和管理门户两部分。标签计算引擎一般采用Mapreduce、Spark、Flink等大数据计算框架,计算后的标签存储可采用Elasticsearch或HBase,存储的优点是快速检索
标签配置和管理门户支持通过配置标签规则向标签计算引擎提交,可以定期计算必要的标签。标签配置和管理门户还提供标准标签服务申请和调用。通过标签工厂,数据中心团队可以减少大量数据开发。
4)ID-Mapping。
ID-Mapping又称ID开通工具,是数据中心建设的选项。选购并不重要,在多渠道、多触点的新零售企业中,离开这个工具,数据质量大幅度降低。
举个例子。消费者在购物中看到剃须刀,扫描店内的二维码,准备订购时被朋友的电话中断了。回到家,打开颤音看到这个剃须刀的广告,马上打开链接订购了。
这样的场景在生活中很多,其中隐藏着很多消费者信息,如果不通过ID的话,至少有可能把同一个用户作为4个用户来处理。实际上,可以结合扫描二维码记录留下的OpenID、颤音注册留下的微信号、订单提供的订单手机号码和注册账户等多个信息,判断是否是同一个人。这样,给这个消费者标签,推荐商品会更准确。
ID-Mapping功能的建设一般利用强大的图计算功能,通过两者之间的关系实现交流,自动有效地将相关身份反映为同一身份的唯一ID的数据工具。它可以大大降低处理成本,提高效率,挖掘更多用户信息,形成更完整的图片,极大地利于数字营销的推广。
此外,ID-Mapping工具也可用于企业主数据管理。
5)机械学习平台。
在整个机器学习的工作流程中,模式培训的代码开发只是其中的一部分。此外,数据的准备、数据的清洗、数据的标记、特征的提取、超参数的选择和优化、训练任务的监视、模型的发表和整合、日志的回收等都是过程中不可或缺的部分。
机器学习平台支持培训数据的高质量收集和高效标注,内置预培训模式,封装机器学习算法,通过可视化拖动实现模式培训,支持从数据处理、模式培训、模式部署到线上预测服务,通过RESTfulAPI的形式和业务应用集成,实现预测,开通机器学习全链接,帮助企业更好地完成传统机器学习和深度学习落地。
6)统一的数据服务。
统一数据服务旨在为企业建立统一的数据服务门户,帮助企业提高数据资产的价值,保证数据的可靠性、安全性和有效性。
统一数据服务支持通过接口配置构建API和数据服务接口,满足不同数据的使用场景,同时降低数据开发门槛,帮助企业最大化数据应用价值。
一文读懂企业数据中台工具平台层,统一数据服务作为唯一的数据服务出口,实现了数据统一的市场化管理,在有效降低数据开放门槛的同时,保障了数据开放的安全。