问答 数据中台是什么?如何定义数据中台?最近公司在做这方面的调研,希望解惑一下

数据中台是什么?如何定义数据中台?最近公司在做这方面的调研,希望解惑一下

   匿名用户    发布于 2022-12-08 16:38 最新回复 2022-12-08 16:39  来自于   数栈君  114  1

最近公司说要做中台架构,业务中台,技术中台,数据中台,很谦虚的请教一下,什么是数据中台?数据中台是什么样子的,它是一个什么样的产品,是一个个的业务系统吗,业务中台还有没有后台系统呢,望大家帮帮忙,给我扫扫盲,有没有什么比较实际的资料学习了解,非常感谢大家!!!

1条回答
数栈君
回复于 2022-12-08 16:39

在企业推进数字化建设的过程中,如何将自身业务产生的数据资产化是一项重要任务,数据资产的质量也决定了其应用效果,而数据资产化有赖于高效的数据质量管理工作,如建立数据管理标准、数据接入方式、数据质量核查评估体系等。在企业发展过程中,随着各种信息系统的逐步上线,数据采集方式越来越多,从而产生了包含业务数据,行为数据,系统日志数据,IOT数据等,数据类型涵盖结构化数据,半结构化数据,非结构化数据等来源不一、形式不一、标准不一的复杂数据。

在企业试图将这些数据进行标准化处理,形成数据资产,使用数据,挖掘数据价值,实现数据业务化的过程中,常常面临各种痛点和难点,主要体现在:

1.数据孤岛严重:烟囱式的应用开发模式,导致数据分散在不同的业务系统中,数据割裂严重,无法有效整合打通,很难做统一的统计与分析,难以发挥全域数据的价值。

2.重复开发:缺少数据沉淀、数据共享机制,当有新的数据需求时,重复开发导致人力资源、计算资源浪费严重。

3.数据管理困难:数据没有统一的标准和定义,分散在不同的存储上,没有统一的数据入口,元数据维护、在线化管理困难。

4.技术门槛高:数据采集、离线处理、实时处理、数据挖掘等需要用到不同的技术和组件,并且技术更新快,组件版本升级频繁,熟练掌握这些技术,需要花费大量的精力。

5.需求响应慢:为了满足不同业务方的数据需求,需要从多个业务系统中进行数据采集,再做复杂的转换加工,缺乏工具和平台方面的支撑,疲于应付临时性提数分析需求,无暇顾及平台级建设和数据治理,恶性循环。

依据数据中台为企业提供数据采集、存储、计算、数据管理、数据共享的理论,袋鼠云自主研发了“数栈DTinsight”产品,为企业提供可复用的数字化基础设施。数栈从产品化方向和技术架构两个维度对数据中台进行了独特的设计与定义。

https://cdn.nlark.com/yuque/0/2022/png/2765003/1670486565585-8d24da20-1e38-4a0c-9bff-f1cd2a7bc177.png?x-oss-process=image%2Fresize%2Cw_937%2Climit_0



在产品化方向上,袋鼠云“数栈DTinsight”在整合企业业务数据、运维数据和设备数据的基础上,设计了企业数据“平台化”、“资产化”和“服务化”的三大核心平台:



一、平台化

Hadoop相关技术组件使用复杂、技术门槛高、版本更新迭代快,完成整条数据处理链路,涉及到数据采集、数据加工处理、任务发布管理、任务调度、任务运维等多个环节。从计算场景上,又分批处理、流式处理、数据挖掘等。因此在开发平台层产品上,需要屏蔽存储和计算引擎层的技术复杂度,支持多种不同的计算任务类型,同时通过一站式、一体化的平台,把整个数据链路全部集成和打通,从而降低技术的门槛,提高开发、运维管理的效率。



二、资产化

开发平台经过ETL处理后,产生了大量的可以被业务直接使用的、有价值的数据,但是数据质量如何保障?数据资产如何高效管理起来?这成为企业面临的大问题,因此需要建设资产平台,校验数据质量,保障数据产出的正确性和有效性,同时能以在线的、可视化的形式对数据进行管理,完善元数据信息,制定数据标准,对数据进行分级分类,安全性管理,并分析数据热度,数据血缘关系,提供统一的企业级数据访问入口。



三、服务化

沉淀有效的数据资产,最终需要给业务应用提供数据服务,产生数据价值,因此在数据服务的时候,需要统一的数据服务出口,保障数据在安全、可控的范围内使用,并进行实时在线的访问监管。



在技术架构维度,袋鼠云“数栈DTinsight”主要包含六类设计:

一.云原生:云原生主要涉及到计算的弹性伸缩和计算存储分离。大数据计算任务大部分都是在凌晨开始运行,传统的基于Yarn的资源调度模式,面临晚上计算资源不足,白天又浪费严重,因此需要基于云原生的架构,容器化编排,统一计算调度,根据任务量情况,自动弹性伸缩,提高资源的利用率。

同时大数据场景,对计算资源的要求要高于存储资源,计算资源和存储资源需求不均衡,大部分情况下计算资源不足,在计算和存储资源耦合的情况下,为了扩展计算能力,存储资源也一起扩展了,带来了大量的存储浪费,因此计算和存储分离后,可以根据需求,单独扩充计算资源,降低成本。

二.信创:信息技术应用创新发展是目前的国家战略,也是当今形势下国家经济发展的新动能,我国明确了“数字中国”建设战略,抢占数字经济产业链制高点的目标。在信创数据中台产品上,主要体现核心技术自主可控,以及开源开放等两方面。核心技术自主可控是大趋势,因此基于开源主流框架,具备源码二次开发和优化能力,并沉淀技术能力、自主知识产权,同时产品也需要拥抱信创生态体系,包含对国产数据库、操作系统、服务器等多个领域全面国产化适配。

三.湖仓一体:数据仓库属于强schema,事先建模,主要存储的是以关系型数据库组织起来的结构化数据。数据通过转换、清洗后,再导入到目标表中。优势在数据管理方便,弱点在于灵活性。

数据湖属于弱schema,事后建模,主要存储任何类型的数据,包括像图片、文档这样的非结构化数据,存储成本也更为廉价,读取的时候再进行schema解析。优势在于灵活性,快速得到结果,存储成本低,弱点在于缺少数据管理能力,以及对数据质量的保障。而企业对数据的需求中,这两种场景都存在,因此为了管理方便,通过湖仓一体的架构,打通多种不同的数据存储,并构建统一的元数据管理,实现数据湖和数仓的一体化。

四.批流一体:大数据处理主要分批处理和流式处理,传统一般采用Lambda架构,批处理和流处理分别采用不同的技术架构,然后在数据服务层合并成统一的数据视图,此种方式需要维护两套分布式系统和两套不同的ETL代码,增加了大量的开发和维护成本。为了提高开发、运维的效率,因此需要统一的技术框架,通过一套计算引擎、一套代码实现批处理、流式处理等多种计算场景,大幅度提高开发效率

五.多引擎兼容:在企业发展过程中,随着数据仓库技术的演进会存在多种计算引擎共存的情况,例如有Oracle、GreenPlum、Hadoop等多套大数据环境,每套环境中都有大量的业务数据和任务在运行,因此需要一套统一的平台来对接多套不同的集群,提供统一的开发体验。

六.跨云能力:随着这几年大量企业开始接受公有云模式,业务和数据逐步迁移到阿里云、腾讯云、华为云等云平台上,甚至部分企业已经购买了云厂商的EMR产品服务,因此需要数据中台平台具备跨云部署以及对跨云EMR的兼容能力,在复用云上服务器、计算集群的同时,提供统一的开发管控的入口。

结合数据中台的理论,通过以上的产品化方向和技术架构,袋鼠云研发出的“数栈DTinsight”作为新一代的大数据处理平台,能够最大程度帮助企业降低成本,提高大数据基础设施的投入产出比。


想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs

同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:https://github.com/DTStack/chunjun

0 0
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料
钉钉扫码加入技术交流群