数据平台建设10.1 业务价值最后值得一提的是,复杂的云数据平台建设不能仅仅是从技术角度出发去推动的。必须从业务(商业)的目标出发来发起和规划整个项目。数据平台的典型价值包括:节流,提升业务运营效率,节约资产投入和各类运维成本。开源,支撑营销优化,客户体验优化...
最佳实践9.1 数据分层我们在建设企业数仓体系时,一般会遵循一些经典的最佳实践,例如关于数据表模型,有星型模型和雪花模型等设计方式;从数据的流转过程来看,有非常经典的数仓分层模式:数仓分层在云数据平台,我们也可以借鉴这方面的思路。例如 Databricks 设...
流程编排与 ETL8.1 流程编排传统数仓架构中,编排工具也是极其重要的一环,在云数据平台中,相关的 pipeline 流程执行调度会更加的繁多复杂。例如我们需要通过定时或 API 的方式来触发数据获取的流程,并在之后进行各种级联任务的触发和调度运行。在任务执...
数据消费数据平台对外提供的服务相比于数仓时代也丰富了许多,除了典型的数据分析型应用,也开始涌现出流式数据消费和数据科学,机器学习类应用需求。为了满足不同的需求,云数据平台可以在松耦合组件化的设计思路下,引入或对接各类专用数据系统,灵活扩展其服务能力。各类数据消...
元数据传统的 RDBMS 经过了多年的行业应用,产品打磨,在元数据方面做得还是比较完善的。而云数据平台因为还没有普及,在各家公司内部搭建过程中往往容易被忽略。这部分的能力实际上作为企业级成熟产品是至关重要的一环。6.1 平台元数据平台在运行过程中会产生各种信息...
数据处理数据处理是整个平台中比较复杂,也是各种流派争夺比较激烈的部分。最典型的做法是使用两套计算引擎来分别支持批处理和流处理,与数据获取部分一致。这样做的好处是可以针对业务场景选择最合适的技术,且更能发挥框架本身的特长。绝大多数公司都是以批处理需求为主的,那样...
数据存储在进行数据获取后,就需要把数据保存到平台存储中。在前面的数据平台架构图中,我们看到作者把存储分成了 fast,slow 两块:快慢存储4.1 Slow Storage这个 slow storage 相对比较好理解,在数仓时代就是 warehouse 系...
在实际企业应用中,机器学习平台非常依赖于企业底层的数据平台,虽然这两年 AI 的热潮一波接着一波,但要很好地去落地算法应用,非常依赖于数据平台的基础建设。从 a16z 的一些分析报告 中也可以看出,目前数据平台类公司吸引了非常多的市场和资本关注,也应运而生了 ...
国际数据管理协会(Data Management Association ,又名DAMA International,以下简称“DAMA”)在其《DAMA数据管理知识体系指南(第2版)》一书中将数据治理进行了定义,即数据治理是对数据资产管理行使权力、控制和共享...
监控系统俗称「第三只眼」,几乎是我们每天都会打交道的系统,它也一直是IT系统中的核心组成部分,负责问题的发现以及辅助性的定位。ChengYing作为一站式全自动化全生命周期大数据平台运维管家,自然也提供大数据产品的监控服务。这篇文章,将为大家系统性地介绍Che...