公共云上的大数据服务平台,阿里云的数加是相对于其他厂商比较独特的一个存在,采用的是真正的多租户而不是每个客户单独部署一套实例的方式来提供服务,并且基于自研的底层分布式计算引擎之上,提供了Dataworks等一整套完整的数据开发套件和数据治理套件,也包括离线计算和实时计算的支持(实时计算引擎是基于Flink改进的Blink),对于已经在阿里云上构建应用的客户,尤其是中小企业客户来说,数加的性价比非常高。这两年袋鼠云也帮助不少云上的客户基于数加实现了大数据服务的落地。
但是也有一些行业的企业客户还是希望自建大数据服务平台,目前来说,数加虽然也有专有云版本,但集群的起始规模比较大,更适合大型集团级企业,基于开源的商业大数据服务平台还是个不错的选择。华为、星环、Cloudera等厂商这几年都有一些积累。
这几年创业的历程中,也接触了不少部署了Hadoop集群的客户,但在使用过程中都有一些痛点,比如数据开发的效率、数据模型的规范、数据质量的管理、数据API的开发效率等等。当数据量到一定量级比如TB级,数据表的数据超过几百个,这些问题,往往会比底层计算引擎的效率更影响数据资产化和数据业务化的落地。阿里云的数加提供的Dataworks经过内部十年的大数据开发和应用的经验沉淀,应该说比较好的解决了这些问题。
袋鼠云数栈的定位是在开源的数据计算引擎之上来解决这些问题,打造企业级一站式数据中台PaaS,同时基于数据中台的能力,为行业客户提供数据应用的完整解决方案,目前在新零售、工业、政府等行业陆续都有一些标杆案例在落地。
袋鼠云研发的数栈就是这么一套数据中台生产力工具,是一组定位在大数据PaaS层的产品集合。核心包括数据开发套件、数据治理套件和数据应用引擎。当然,为了方便客户,数栈自身也基于Flink和Spark构建了一套支持实时计算、离线计算和学习型计算的数据计算引擎。但是,数栈不仅仅支持自带的数据计算引擎,大部分产品模块也支持市场上第三方的数据计算引擎,包括Cloudera、星环、MaxCompute等。所以,数栈的核心是数据开发套件、数据治理套件和数据应用引擎,而数据计算引擎是可替换可兼容的。
当然,数据开发套件、数据治理套件和数据应用引擎从最终的产品设计来看,更多是逻辑模块的划分。实际上为了用户使用过程中的体验流畅性,一部分数据治理的产品模块也直接放进到数据开发套件,比如数据地图和数据模型;数据治理套件目前主要包含的是数据质量;数据应用引擎则包括数据API、标签工厂和大屏引擎,数据应用引擎根据行业和业务场景,可以不断的从数据应用产品中下沉演化,将通用部分的功能抽象成数据应用引擎。
数据开发套件是整个数据中台核心,是基于开源生态的Spark和Flink做为计算引擎的基础上,为数据开发者提供了一套开发界面。一方面是方便开发者使用数据平台,简化数据同步和数据开发任务的创建、发布、调度、运维等一系列数据开发任务,提升生产效率。另外一方面,通过统一的开发入口,可以实现元数据的自动录入、数据血缘关系的识别等,再配合数据地图的类目管理和权限管理,为数据治理提供了极大的便利。数据开发是落地数据中台的关键过程,既需要开发工具的支持,也需要数据建模的约束,数栈开发套件中也引入了一套基于阿里巴巴多年数据中台实践的数据模型工具,来帮助企业规范数据建模,提升模型的生命力。数栈的数据开发平台,可以兼容多个物理集群,并支持在单集群上实现多租户资源隔离,既可以帮助企业实现一套大数据平台多个部门分租使用,也可以帮助企业整合现有多个集群统一管理。
除了数据开发套件,当前版本的数栈还有三个相对可以独立部署的产品,包括数据资产、数据服务和客户数据洞察。
当然,做为一站式云原生数据中台,数栈的产品体系还在不断丰富当中,比如袋鼠云实时炫酷的数据可视化大屏的背后,也有一套可独立部署的成熟低代码数字孪生平台EasyV,配合数据API,也可以赋能企业客户自己定制大屏。同时,为了更高效的部署和监控数栈,还有一套称之为底座的大数据计算引擎EasyMR产品做为幕后英雄。
《数据治理行业实践白皮书》下载地址:https://fs80.cn/4w2atu
想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs
同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:https://github.com/DTStack