博客国内较知名的大数据服务平台有哪几家？

国内较知名的大数据服务平台有哪几家？

数栈君发表于 2023-03-13 15:14 970 0

公共云上的大数据服务平台，阿里云的数加是相对于其他厂商比较独特的一个存在，采用的是真正的多租户而不是每个客户单独部署一套实例的方式来提供服务，并且基于自研的底层分布式计算引擎之上，提供了Dataworks等一整套完整的数据开发套件和数据治理套件，也包括离线计算和实时计算的支持（实时计算引擎是基于Flink改进的Blink），对于已经在阿里云上构建应用的客户，尤其是中小企业客户来说，数加的性价比非常高。这两年袋鼠云也帮助不少云上的客户基于数加实现了大数据服务的落地。

近日，袋鼠云重磅发布《数据治理行业实践白皮书》，白皮书基于袋鼠云在数据治理领域的8年深厚积累与实践服务经验，从专业视角逐步剖析数据治理难题，阐述数据治理的概念内涵、目标价值、实施路线、保障体系与平台工具，并借助行业实践案例解析，为广大读者提供一种数据治理新思路。下载地址：https://fs80.cn/4w2atu

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/4b15b2acb64e1f0545cf09c20153bff6..png

但是也有一些行业的企业客户还是希望自建大数据服务平台，目前来说，数加虽然也有专有云版本，但集群的起始规模比较大，更适合大型集团级企业，基于开源的商业大数据服务平台还是个不错的选择。华为、星环、Cloudera等厂商这几年都有一些积累。

这几年创业的历程中，也接触了不少部署了Hadoop集群的客户，但在使用过程中都有一些痛点，比如数据开发的效率、数据模型的规范、数据质量的管理、数据API的开发效率等等。当数据量到一定量级比如TB级，数据表的数据超过几百个，这些问题，往往会比底层计算引擎的效率更影响数据资产化和数据业务化的落地。阿里云的数加提供的Dataworks经过内部十年的大数据开发和应用的经验沉淀，应该说比较好的解决了这些问题。

袋鼠云数栈的定位是在开源的数据计算引擎之上来解决这些问题，打造企业级一站式数据中台PaaS，同时基于数据中台的能力，为行业客户提供数据应用的完整解决方案，目前在新零售、工业、政府等行业陆续都有一些标杆案例在落地。

袋鼠云研发的数栈就是这么一套数据中台生产力工具，是一组定位在大数据PaaS层的产品集合。核心包括数据开发套件、数据治理套件和数据应用引擎。当然，为了方便客户，数栈自身也基于Flink和Spark构建了一套支持实时计算、离线计算和学习型计算的数据计算引擎。但是，数栈不仅仅支持自带的数据计算引擎，大部分产品模块也支持市场上第三方的数据计算引擎，包括Cloudera、星环、MaxCompute等。所以，数栈的核心是数据开发套件、数据治理套件和数据应用引擎，而数据计算引擎是可替换可兼容的。

当然，数据开发套件、数据治理套件和数据应用引擎从最终的产品设计来看，更多是逻辑模块的划分。实际上为了用户使用过程中的体验流畅性，一部分数据治理的产品模块也直接放进到数据开发套件，比如数据地图和数据模型；数据治理套件目前主要包含的是数据质量；数据应用引擎则包括数据API、标签工厂和大屏引擎，数据应用引擎根据行业和业务场景，可以不断的从数据应用产品中下沉演化，将通用部分的功能抽象成数据应用引擎。

数据开发套件是整个数据中台核心，是基于开源生态的Spark和Flink做为计算引擎的基础上，为数据开发者提供了一套开发界面。一方面是方便开发者使用数据平台，简化数据同步和数据开发任务的创建、发布、调度、运维等一系列数据开发任务，提升生产效率。另外一方面，通过统一的开发入口，可以实现元数据的自动录入、数据血缘关系的识别等，再配合数据地图的类目管理和权限管理，为数据治理提供了极大的便利。数据开发是落地数据中台的关键过程，既需要开发工具的支持，也需要数据建模的约束，数栈开发套件中也引入了一套基于阿里巴巴多年数据中台实践的数据模型工具，来帮助企业规范数据建模，提升模型的生命力。数栈的数据开发平台，可以兼容多个物理集群，并支持在单集群上实现多租户资源隔离，既可以帮助企业实现一套大数据平台多个部门分租使用，也可以帮助企业整合现有多个集群统一管理。

除了数据开发套件，当前版本的数栈还有三个相对可以独立部署的产品，包括数据资产、数据服务和客户数据洞察。

数据资产，主要用于检查数据任务生产的数据的质量情况。数据开发和应用开发不同的地方，在于即使数据开发任务运行成功没有报错，最终的结果表中的数据还是有可能不满足业务需要，原因可能有很多，比如源表中数据异常、调度时间错误等等。数据质量产品支持针对表级和字段级别设定校验规则，既可以针对单张表做校验，也可以针对两张表做逐行校验。更重要的是，数据质量产品中内置了大量经过阿里数据生产实践沉淀下来的校验规则，即配即用，非常方便。
数据服务，顾名思义，可以将数据表快速的通过配置创建成对外服务的API，加速数据业务化的过程。传统的数据仓库通常用于分析报表，有大量的报表类产品可以读取数据仓库的数据来做展现。但企业花费巨大的人力物力财力构建数据中台，当然不会仅仅满足于分析报表类的应用，而是希望以数据驱动为中心，实现数据和业务产品的流转闭环，可以说数据中台80%以上的应用场景应该是直接形成数据产品和业务产品之间实现服务连接。数据API可以提升数据服务化的效率和能力，结合API Gateway的能力，也可以将数据服务对外开放。
客户数据洞察，一定程度上和数据API有一些共通的地方。为什么还要单独设计一款产品？在多年的大数据踩坑经验中，数据的标签化是一个非常有效的经验。不管是新零售场景中最关注的人的数据，一方面需要通过ID识别出人，另外一方面更重要的是将人的各种相关的数据包括行为数据、交易数据、娱乐数据等关联到这个ID上，但这些数据有些是结构化的，有些是非结构化的，有些是显性的，有些是隐性的，怎么有效的利用这些数据一直是一个难题。从数据中台的理念出发，将这些数据通过统计、算法等手段，加工成容易被上层各种数据应用产品利用的标签，是被实践证明高效可行的方案。标签工厂产品的定位，就是希望将这个经验落地成工具，加速这个过程。

当然，做为一站式云原生数据中台，数栈的产品体系还在不断丰富当中，比如袋鼠云实时炫酷的数据可视化大屏的背后，也有一套可独立部署的成熟低代码数字孪生平台EasyV，配合数据API，也可以赋能企业客户自己定制大屏。同时，为了更高效的部署和监控数栈，还有一套称之为底座的大数据计算引擎EasyMR产品做为幕后英雄。

《数据治理行业实践白皮书》下载地址：https://fs80.cn/4w2atu

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友，浏览袋鼠云官网：https://www.dtstack.com/?src=bbs

同时，欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」，交流最新开源技术信息，群号码：30537511，项目地址：https://github.com/DTStack