数据中台数据中台
申请试用
新闻动态
了解袋鼠云最新动态
新闻动态>袋鼠云数据中台,数据价值提炼工厂>
袋鼠云数据中台,数据价值提炼工厂
2021324|文章来源:-

袋鼠云数据中台,数据价值提炼工厂,聚集联通到中台的数据,基本上是在数据的原始状态下堆积的,是企业过去所有IT信息化建设积累的成果的融合。数据开发是数据资产内容建设的主战场,是数据价值生产过程中的核心环节,可以支持大量数据的离线处理、实时处理和数据挖掘等。


业务沉淀的数据就像原始矿石或商品的原材料,数据开发这一环节就像一条商品生产的流水线,通过这条流水线将数据转化为数据资产,使数据能够根据业务需求转化为新的形态,将原本看起来毫无价值的数据转化为对业务有价值的资产,为前端业务不断提供所需的商品。
数据开发设计的产品能力主要包括线下开发、实时开发和算法开发三个部分。
使用数据中心-数据第6章-数据开发:数据价值提取工厂。
离线开发:包括离线数据的加工、发布、运输管理、数据分析、数据探索、在线查询和即时分析相关工作。
实时开发:主要涉及数据的实时访问和实时处理,简化流程数据的加工处理过程。
算法开发:主要提供简单易用的可视拖拉方式和Notebook方式,实现数据价值的深入挖掘。
主要用于批量数据的高延迟处理场景,如线下数仓加工、大数据清洗和挖掘等。目前,多采用MapResuce、Hive、Spark等计算框架进行处理,其特点是吞吐量大、延迟高、人机交互少的场景。
传统的金额数据处理方式通常将数据导入专业的数据分析工具,面临两个问题
1)当源数据非常大时,数据的移动通常需要很长时间。
2)传统的数据处理工具多为单体或系统结构不能迅速扩展,面对大量数据,数据处理时间也是一个大问题。
MapReduce是一种分布式编程模式,采用分开治疗的思想,将大规模数据集分解为多个小规模数据,分发给集团中的多个节点共同计算,有效地降低各部分的计算复杂性,提高计算效率
也称为实时流量计算,对数据的加工处理和应用有很强的时效性要求,常见于警告场景的监视。实时分析网络事件,发生异常事件时可立即介入处理。这种场景目前应用较多的计算框架主要有Flink、SparkStreaming和Storm等。
流动计算的常见应用场景如下
1)流动ETL:整合流动计算现有许多数据渠道和SQL的灵活加工能力,实时清晰、整合和结构化流动数据。同时,有效补充和优化离线数据仓库,为数据实时传输提供计算通道。
2)流动报告:实时收集和加工流动数据,实时监控和显示业务和客户的各种指标,实时操作数据。
3)监视警报:实时监视和分析系统和用户的行为,实时监视和发现危险行为。
4)在线系统:实时计算各种数据指标,利用实时结果及时调整在线系统的相关策略,在内筒投入、无线智能推进等领域有很多应用。
主要用于数据结果的在线查询、条件过滤和筛选等,如数据搜索、条件过滤等。根据场景的不同,市场营销场景对应延迟的要求很高的情况下,一般采用Redis、Tair等缓存型的存储计算,对应延迟的要求正常的情况下,可以选择HBase和Mysql等需要条件过滤、检索的情况下,可以选择Elasticsearch等。企业一般对在线查询的需求比较旺盛,可能会有多套在线计算的能力提供服务。
在线查询需要处理大数据结果集,同时还需要提供一些快速计算的能力,如条件过滤筛选、在线搜索等能力,快速从大结果中筛选和搜索结果信息,支持高并发、低延迟的快速响应。因为没有这个能力的批量计算、流量计算,所以需要提供在线查询的能力。
在线查询的常见应用场景如下
1)图像服务:根据对象标志提供具体的查询服务。例如,通过Redis,可以提供低延迟、高并发的查询服务能力的HBase,可以提供规模数据的查询服务能力,例如应聘查询。
2)检索的应用场景:提供检索引擎的能力,为用户提供模糊的匹配、意图识别检索能力、快速检索所需的内容。
即席分析是指面对大数据集,如何快速进行数据的多维交叉分析,其大部分是聚合型操作,如groupby/sum\avf\count等,计算具有足够的灵活性,但需要时间,传统的关系型数据库和数据仓库结构
主要用于分析场景和经验统计。一般来说,企业80%的数据处理需求是在线查询和即时分析。根据不同维度的分析,可以提供多种方法,事先固定计算的维度、根据需要任意维度的交叉分析(ad-hoc)等是常见的场景。目前,Kylin/Impala/ClickHouse/Hawk等相应的产品和框架也有很多应用程序。
对于即席分析的复杂场景,通过时间和空间的权衡,即席分析有两种常见的实现方法:
1)ROLAP:以关系型数据库为中心,以关系型结构进行多维数据的标识和存储,通过星型模型和雪花模型实现。
2)MOLAP:基于多维数据组织的实现,以多维数据组织为中心,形成立方块结构,通过对立方块进行各种处理产生多维数据报告。
即席分析常见的应用场景:
1)互动数据分析:运营商在日常工作中经常需要通过SQL从各个维度分析当前业务,并提供分析结果以便进行后续工作。离线计算的场景等待时间长,用户体验差,即席分析可以更好地回避这个问题。
袋鼠云数据中台,数据价值提炼工厂,组对比分析场景:业务中经常有A/B测试场景,对于不同的组,从各个维度对比分析也是即席分析经常支持的场景。

此刻起,和袋鼠云一起让数据产生更大价值
此刻起,和袋鼠云一起让数据产生更大价值