博客 聊聊云原生大数据平台(六)——数据消费

聊聊云原生大数据平台(六)——数据消费

   数栈君   发表于 2023-01-09 15:13  386  0

数据消费

数据平台对外提供的服务相比于数仓时代也丰富了许多,除了典型的数据分析型应用,也开始涌现出流式数据消费和数据科学,机器学习类应用需求。为了满足不同的需求,云数据平台可以在松耦合组件化的设计思路下,引入或对接各类专用数据系统,灵活扩展其服务能力。


http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/72b446555a2dc1934db212abc21590cf..jpg

各类数据消费需求

7.1 分析查询

对于 BI 数据分析类需求,绝大多数的应用都是通过 SQL 来进行数据的查询获取的。由于自助式数据分析需求的兴起,对于查询的灵活性,交互的时效性(一般需要亚秒级到秒级响应),以及对大数据量处理的要求越来越高,传统的 Hive,Spark 查询由于响应时间的问题往往无法满足需求。在这个背景下也出现了很多相应的解决方案:

  • 云数仓,如三大厂商的 BigQuery,Redshift,Azure Synapse,或者第三方的 Snowflake 等。在结构化数据处理需求为主的情况下,甚至可以直接以这些系统为核心,替代传统数仓来打造整个数据平台。
  • Lakehouse,例如 Spark 的商用版计算引擎 Photon,或者 Presto,Dremio 等技术,基于一些数据湖上的 open format(Delta,Hudi,Iceberg)做高效的查询处理。
  • 开源实时分析数据库,如前面多次提到的 ClickHouse,以及各种新涌现的项目如 Apache DorisDatabend 等。
  • 7.2 数据科学

    在数据科学,机器学习领域,目前最重要的生态都是基于 Python 构建的,其典型的运作方式会通过 notebook,Python 脚本等方式,直接从数据存储层获取大批量的数据来进行统一处理并用于后续模型训练等,比较少需要通过 SQL 来执行复杂的查询。在这种情况下,如果可以直接访问 slow storage 中的原始文件,那么成本开销自然是最低的了。当然这样做也有坏处,比如数据的管控,权限等就会难以保证。

    另外如果考虑整个机器学习的开发,部署,监控全流程,那么就会引入另外一大坨 MLOps 相关的需求,其中像数据这块的需求涉及到 Feature Store,里面的批量和实时特征请求模式的区别,也跟我们讨论的数据平台中批量获取和单点查询的需求有所对应,在建设时可以考虑是否能复用部署组件。


  • http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/f1dded56fb789273be22022c593376e6..jpg

关于 MLOps 相关的讨论,也可以参考我之前的这篇 MLOps 简介

7.3 实时消费

最后,对于流式处理和分析的结果,也会有相应的应用来进行实时消费。可以通过实时结果推送,写入关系型数据库,KV 存储,缓存系统(如 Redis),搜索系统(如 ElasticSearch)来对外提供服务。很多流式处理系统如 Flink 也支持实时查询,可以开发特定 API 来直接从流式系统中提供数据结果。

7.4 权限与安全

在企业级应用中,用户权限的控制,各类操作记录的审计和监控,包括数据脱敏,加密等方面的需求至关重要。除了平台本身要重视这方面能力的支持外,我们也可以考虑利用各类相关的云服务,例如 Azure Active Directory,Auth0 之类的身份认证服务,Immuta 这类数据安全公司,以及云厂商提供的各种 VPC,VPN 相关的网络安全服务等。

7.5 服务层产品

除了前面提到的云数仓,lakehouse 和实时分析数据库,也有类似 Metric Store 之类的产品,构建在各类数据源之上,对外提供统一的服务。如 LookMLTransformMetlo 等。


http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/7d3d741161ae4dc876b1602effbe30b1..jpg


(文章来源于网络,如侵删)

相关链接:

聊聊云原生大数据平台(一)——数据平台架构 https://www.dtstack.com/bbs/article/428

聊聊云原生大数据平台(二)——数据获取  https://www.dtstack.com/bbs/article/469

聊聊云原生大数据平台(三)——数据存储 https://www.dtstack.com/bbs/article/470

聊聊云原生大数据平台(四)——数据处理 https://www.dtstack.com/bbs/article/471

聊聊云原生大数据平台(五)——元数据 https://www.dtstack.com/bbs/article/472

聊聊云原生大数据平台(六)——数据消费 https://www.dtstack.com/bbs/article/473

聊聊云原生大数据平台(七)——流程编排与 ETL https://www.dtstack.com/bbs/article/474

聊聊云原生大数据平台(八)——数仓最佳实践 https://www.dtstack.com/bbs/article/475

聊聊云原生大数据平台(九)——大数据平台建设 https://www.dtstack.com/bbs/article/476

袋鼠云在大数据领域深耕7年,拥有丰富的大数据平台建设经验和成熟的产品体系,想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs

同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:https://github.com/DTStack

0条评论
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料
钉钉扫码加入技术交流群