一.云原生:云原生主要涉及到计算的弹性伸缩和计算存储分离。大数据计算任务大部分都是在凌晨开始运行,传统的基于Yarn的资源调度模式,面临晚上计算资源不足,白天又浪费严重,因此需要基于云原生的架构,容器化编排,统一计算调度,根据任务量情况,自动弹性伸缩,提高资源的利用率。
同时大数据场景,对计算资源的要求要高于存储资源,计算资源和存储资源需求不均衡,大部分情况下计算资源不足,在计算和存储资源耦合的情况下,为了扩展计算能力,存储资源也一起扩展了,带来了大量的存储浪费,因此计算和存储分离后,可以根据需求,单独扩充计算资源,降低成本。
二.信创:信息技术应用创新发展是目前的国家战略,也是当今形势下国家经济发展的新动能,我国明确了“数字中国”建设战略,抢占数字经济产业链制高点的目标。在信创数据中台产品上,主要体现核心技术自主可控,以及开源开放等两方面。核心技术自主可控是大趋势,因此基于开源主流框架,具备源码二次开发和优化能力,并沉淀技术能力、自主知识产权,同时产品也需要拥抱信创生态体系,包含对国产数据库、操作系统、服务器等多个领域全面国产化适配。
三.湖仓一体:数据仓库属于强schema,事先建模,主要存储的是以关系型数据库组织起来的结构化数据。数据通过转换、清洗后,再导入到目标表中。优势在数据管理方便,弱点在于灵活性。
数据湖属于弱schema,事后建模,主要存储任何类型的数据,包括像图片、文档这样的非结构化数据,存储成本也更为廉价,读取的时候再进行schema解析。优势在于灵活性,快速得到结果,存储成本低,弱点在于缺少数据管理能力,以及对数据质量的保障。而企业对数据的需求中,这两种场景都存在,因此为了管理方便,通过湖仓一体的架构,打通多种不同的数据存储,并构建统一的元数据管理,实现数据湖和数仓的一体化。
四.批流一体:大数据处理主要分批处理和流式处理,传统一般采用Lambda架构,批处理和流处理分别采用不同的技术架构,然后在数据服务层合并成统一的数据视图,此种方式需要维护两套分布式系统和两套不同的ETL代码,增加了大量的开发和维护成本。为了提高开发、运维的效率,因此需要统一的技术框架,通过一套计算引擎、一套代码实现批处理、流式处理等多种计算场景,大幅度提高开发效率
五.多引擎兼容:在企业发展过程中,随着数据仓库技术的演进会存在多种计算引擎共存的情况,例如有Oracle、GreenPlum、Hadoop等多套大数据环境,每套环境中都有大量的业务数据和任务在运行,因此需要一套统一的平台来对接多套不同的集群,提供统一的开发体验。
六.跨云能力:随着这几年大量企业开始接受公有云模式,业务和数据逐步迁移到阿里云、腾讯云、华为云等云平台上,甚至部分企业已经购买了云厂商的EMR产品服务,因此需要数据中台平台具备跨云部署以及对跨云EMR的兼容能力,在复用云上服务器、计算集群的同时,提供统一的开发管控的入口。
结合数据中台的理论,通过以上的产品化方向和技术架构,袋鼠云研发出的“数栈DTinsight”作为新一代的大数据处理平台,能够最大程度帮助企业降低成本,提高大数据基础设施的投入产出比。