袋鼠云隶属于杭州玳数科技有限公司,成立于2015年11月。公司以云原生一站式数据中台PaaS“数栈DTinsight”产品为核心,数据中台解决方案、数据可视化服务、数据化运维解决方案等系列矩阵全方位帮助客户建设数字化基础设施,实现数字化转型。
传统解耦模式
数栈的1.0版本,由离线开发+实时开发2个模块耦合在一起,还谈不上模块解耦。在创建项目初始化时,需要连接Spark Thrift做元数据同步。但在几次POC时,发现部分客户只需要实时开发模块,而功能设计上又必须依赖离线的SparkThrift组件,这显然是不合理的。此为各模块解耦的起源。
在数栈进行2.0迭代时,除了离线与实时的解耦之外,还新增了数据质量、数据API等模块,在功能设计、导航设计上均采用了独立解耦的思路,为后续每个模块单独输出做好了铺垫。
在数栈的3.0及之前的版本,解耦一直是产品的主要方向,但在4.0版本中,我们也逐渐投入到了各模块的「打通」设计中。
除了上述几个点之外,基础能力层还有以下几个方面需完善:
体验一致:运维中心
随着调度引擎的统一,同时每个模块对周期调度的功能是雷同的,抽象为统一的「运维中心」,为各个模块提供体验一致的周期实例运维能力,也已经规划在下一步的Roadmap中。除离线外,标签、指标、算法等模块均需要基本的实例状态管理、日志查看、重跑、补数据等操作,基于需求的一致性,所以需要形成统一的运维中心,实现操作体验的统一,降低重复造轮子的出现。
统一的数据同步/数据传输
数栈已经在3.0版本已经完成了离线同步和实时同步的框架统一,由FlinkX来统一承担离线和实时的同步和采集。
当前的设计模式将离线同步和实时同步分别做在了离线开发和实时开发模块中,但也有不少的客户有交叉性的需求:
某客户需要同步大量的离线数据,但也需要同步少量的实时表
某客户主要使用算法模块,但需将其他各系统的数据同步到算法底层的Hadoop存储中
某客户使用Greenplum做数据仓库,同时需要智能标签模块,需要将Greenplum数据同步到智能标签模块的Hive表中
以上几种交叉场景较好的解决方式,是将数据同步单独拆分,可以与其他模块灵活组合输出,一方面实现轻量化的部署模式,另一方面是提升用户的使用体验。
从传统的解耦模式到目前的松耦合模式,数栈始终秉承着“让数据产生价值”这一核心理念,致力为行业伙伴和终端客户提供更加优质的数据处理方案,在使用体验、灵活性、扩展性和开放性等方面进行最优化设计,助推各行各业加快数智化转型升级。