产品是数据中台的基础,那么什么是好的数据中台产品?有些厂商喜欢造空中楼阁,标榜数据实时性有多高效、算法有多智能、支撑的数据量并发量有多大,以此想弯道超车,但是万丈高楼平地起,只有基础建设牢靠了,上层架构才能稳定、高效。好的数据中台产品应当循序渐进地实现:准、稳、全、快、智,这五个方面。
准,是保证数据的准确性,如果数据准确性都无法保证,那对企业造成的影响就是灾难性的,试想用错误的数据进行计算、分析,那得到的结果一定是错误的。
稳,是保证产品及数据任务的稳定,稳定的数据运行环境,既能节省运维成本,也是数据能够即时、有效、准确生成的重要保障。
全,是打通并汇聚全域的数据,数据中台相比传统数仓的一个很重要的优势就是对全域数据进行统一存储、分类、加工,建设可复用的数据资产,基于多源、多渠道的数据,进行数据价值的最大挖掘。
快,是加快数据的实时性,随着数据场景的丰富,很多数据的价值也具有时效性,具备数据实时集成、实时加工、实时共享的稳定功能,是未来大数据竞争中的必要条件。
智,是具备数据智能的工具及基础,工具包含了机器学习、深度学习的相关开发工具,基础包含了运行环境、训练数据、算法模型库等,智能化是大数据发展的趋势,也是数据中台规划、建设必须要考虑的重要环节。
具备这五点要素,并不是简单的技术堆砌、产品集成就能完成的,更需要在不同的行业、不同的数据量、不同的实时性要求、不同的运行环境、不同的业务场景下进行产品和技术的打磨,完善产品设计、产品开发、部署实施、上线发布、运维监控、迭代升级等全流程的各项功能、性能,打造出坚实的数据底座。
围绕数栖平台和袋鼠云的产品做一些对比
是一站式大数据开发管理平台,帮助快速搭建数据中台,解决数据同步、清洗、开发、治理、管理及服务的能力。离线开发、实时开发、算法开发可以通过可视化拖拽的方式快速构建数据处理流程,兼容多种大数据平台。可以通过对数据的管理和展现,让企业的管理者可以更快速更高效的使用数据。
数据交换(多源异构数据的分布式交换工具)
数栖平台的数据交换功能提供多种类型的数据抽取插件和数据写入插件,以同步中心驱动,灵活配置各输入与输出数据存储,自适配各数据抽取、写入插件的数据转换;数据源存储根据实际布署情况,避免直接操作主库,尽量选择备库进行数据抽取;目标存储是以HDFS为核心的分布式系统,方便支持在线BI及算法挖掘,支持未来业务发展时水平扩容。平台功能包括数据源管理、数据同步模块、数据同步任务管理、同步任务监控。
功能:离线数据同步、实时数据同步、非结构化数据同步、整库数据同步、监控告警、DataPipeline、数据计量
袋鼠云连续两年被Gartner评为数据中台标杆供应商,创始人从阿里的大数据团队出来,从16年开始,坚持着大数据方向,关于数据中台和数据治理方面,都出过相关的书籍,坚持着只做私有化数据中台的路线,不碰业务,产品、解决方案在私有化场景下更加聚焦。
袋鼠云自研的大数据开发及治理平台——数栈产品功能包含了离线、实时、算法、资产、质量、标签、指标、数据服务等,值得一提的是,他们上述的产品功能均模块化解耦,可以单独输出,这样对于客户的选择性来说相对比较友好。在数据中台、数据治理方面也有着非常强的理论支撑,能够配合产品形成完整的解决方案和建设体系。
功能全面:产品功能非常全面,广度、深度都非常不多;
技术优势:自研的ChunJun(原FlinkX)作为数据离线、实时采集的工具,做了开源,并在其他大数据技术开源社区也非常活跃;
集群兼容:同一套开发平台可以对接、兼容多个大数据集群,包括Hadoop、GreenPlum、EMR、Oracle等;
功能解耦:产品功能模块完全解耦,这样对于需要选择部分功能、模块,或者想小步慢跑的企业非常友好;
信创支持:对国产芯片、数据库、操作系统的支持很丰富。
袋鼠云数栈可提供私有化服务,数据中台的开发工具、建设方法论、实施案例都比较有优势,产品的包容性、开放性更强,可以基于客户现有的大数据集群进行建设,无论是从0到1建设数据中台,还是兼容客户已有的数据中心,都能提供相应的产品解决方案。
袋鼠云数栈的目标比较明确:专注于大数据产品及其解决方案,这可能是产品比较有竞争力的原因,在众多大数据创业公司中也属于做的比较早,比较有名的一类,目前也开始走产品+生态的路线,以此来扩大产品的覆盖率和影响力。