博客 基于数据中台的大数据治理,聊聊数据源

基于数据中台的大数据治理,聊聊数据源

   数栈君   发表于 2023-01-12 16:51  310  0

1

数据产生


http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/ee8325e5c17c3623c50847f7ad1792d0..jpg


当今企业在发展和经营的过程中,「信息化」早已是建设标准,在企业运作的过程中,或多或少地,积累了很多数据。在进入到DT时代,数据成为企业未来成长的引擎也越来越被认可。有先见之明的企业更注重于从方方面面来收集各项数据。我们今天的话题就以数据产生和数据内容加以介绍。


企业的数据产生我们按照主动和被动原则来进行划分:


  • 被动数据:为企业事务和流程过程产生的必须数据,即我们一般理解的业务系统,以一般型企业为例,CRM系统、OA系统、ERP系统、交易系统等则为被动数据。

  • 主动数据:则是辅助、记录、日志等非主线业务,需要额外付出人力和成本主动收集的数据,如:网页访问日志、系统运行日志、监控数据、门店用户进出数据等。


下面为数据存在的载体分布示意图:


http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/4f75a4182c2a14b4a3d42fee25398cac..jpg


在IT早期时代,硬件为瓶颈,存储和计算资源的不足,在构建数据模型的过程中,基本是以核心业务系统(即关系型数据库)为主,主动数据往往短暂保留或简单分析后即被丢弃。在进入到云计算、大数据的时代,存储和计算的相对廉价,数据的融合和催化效应也越发受到重视,主动数据开始走进公众的视野,成为数据中台之数据来源不可或缺的部分。


2

数据分类


http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/6d1ae6a69b175c6ec6145a243c46979e..jpg


按来源分类



数据按照来源分类,一般分为数据库、日志、API、FTP文件、IoT、埋点日志、互联网爬虫等。


数据的来源主要影响后续的数据集成和同步,我们需要以不同的技术手段将其同步至数据中台,以袋鼠云提供的组件支持如下:


来源类型

集成方式(离线)

集成方式(实时)

数据库

FlinkX

(OGGCanal) + Kafka

API

SDK  + Kafka

FTP

FlinkX

-

IoT

FlinkX

SDK  + Kafka

埋点日志

DT.Trace  + JLogstash + Kafka

互联网爬虫

DT.Crawl  + JLogstash + Kafka


上述FlinkX、JLogstash、DT.Trace、DT.Crawl 均为袋鼠云产品团队研发的技术组件,支撑袋鼠云数栈产品体系。

 

按结构分类


数据按照结构分类,一般分类结构化、半结构化、非结构化三种。


http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/3964843bb2871400613acfce58036c95..jpg


  • 结构化数据:一般为二维数据,即行列清晰分明,每一行数据都能拆分成固定的列数,我们日常使用的关系型数据库(Oracle、MySQL)可以表示和存储结构化数据。

  • 半结构化数据:一般为Key-Value型数据,数据格式不固定,如常见的Json和XML即可存储半结构化数据,一些非关系型数据库(HBase、MongoDB)也能存储半结构化数据。

  • 非结构化数据:即没有固定的数据结构,如我们常见的文档、图像、影音、视频等。


我们先从数据中台的输出来看,一般来说都是以结构化数据提供服务,所以在数据清洗的过程中,会将半结构化数据转为结构化数据,然后再进行模型开发。对于非结构化数据,一般以链接的方式作为某个实体的属性来进行分析。


按主题分类


在构建业务主题的过程中,我们会对企业的数据按照主题来进行分类。以个人的经验来看,数据主题一般按照企业业务的核心实体和业务过程来进行划分。


以电商业务为例,我们一般按照以下八个主题来划分线上业务:


  • 会员:注册会员及潜在会员的各种基础信息数据。

  • 商品:所有可售卖产品和商品数据,也包括类目、品牌,SPU,SKU等相关商品基础信息数据。

  • 交易:交易包含线上从加入购物车到下单、支付、发货、退款退货及成功交易各个业务过程

  • 营销:营销活动过程中的各个业务过程所沉淀的数据。

  • 渠道:包含电商、门店等终端渠道的基础数据及这些终端渠道本身的创建、维护、关闭等业务过程数据。

  • 日志:用户访问所有平台包含官网、微信公众号、电商平台、App等记录下的所有日志数据。

  • 公共:包含企业的组织架构、员工、角色以及公共事务。

  • 物流仓储:商品在仓储物流配送过程中的各个业务过程所沉淀的数据。


除此之外,企业的线下过程和企业内部业务,如生产制造、供应链、组织效能、财务也会认为是独立的数据主题。


数据主题的划分,是数据中台规范建模的重要部分,需要抽象提炼、并且长期维护和更新的,但不轻易变动。在划分数据域时,既能涵盖当前所有的业务需求,又能在新业务进入时无影响的被包含进已有的数据域或者扩展新的数据主题。


按模型分类



数据模型表一般分为维度表、事实表、聚合表三种,在一般的数据源中,很少直接存在聚合表的现象,所以我们将数据源按照维度表、事实表来进行分类。


  • 维度表: 维度表可以看成是用来分析一个事实的窗口,维度表的主键为对应实体的ID,一般还存在一些实体的属性和特征说明,不同的维度表之间也会存在一些层级、映射关系。如常见的用户表、商品表即是维度表。


  • 事实表:事实表其是通过维度、属性、度量的组合来确定一个事实的,比如通过时间维度、地域维度、度量值可以去确定在某个时刻的一些度量值怎么样的事实。事实表的每一条数据都是几条维度表的数据和度量值交汇而得到的。如交易记录表、用户访问行为表就是事实表。以交易表为例整理维度、属性、度量后如下:


http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/714d2e268d3148c782328a870dae737c..jpg


在模型初期的整理过程中,可以用E-R图来清晰来表达维度、属性、事实之间的映射和关联关系,以下为顾客消费商品的示例图:


http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/a683c9ba586f9b5c91ab1a3eee62fb82..jpg


通过此图我们能快速了解顾客维度及属性、商店维度及属性、以及顾客和商品间发生的消费行为而产生的事实。



相关阅读:

基于数据中台的大数据治理,企业数字化转型认知——数据就是生产力

基于数据中台的大数据治理,企业三界:业务界面,应用界面,数据界面

基于数据中台的大数据治理,企业数字化建设三范式

基于数据中台的大数据治理,企业数字化整体架构

基于数据中台的大数据治理,三个维度看数据中台

基于数据中台的大数据治理,聊聊数据源

基于数据中台的大数据治理,聊聊数据集成

基于数据中台的大数据治理,数据质量检测

基于数据中台的大数据治理,数字化驱动引擎之数据资源盘点

基于数据中台的大数据治理,数字化驱动引擎之数据应用规划

基于数据中台的大数据治理,数字化运营组织

基于数据中台的大数据治理,数据应用元素周期表

基于数据中台的指标管理及业务监控体系建设

基于数据中台的大数据治理,地产业务画像初探

基于数据中台的大数据治理,某知名鞋服企业基于画像体系的产品设计

基于数据中台的大数据治理,某省交警基于行车轨迹构建车辆画像应用案例

袋鼠云在大数据领域深耕7年,拥有丰富的大数据平台建设经验和成熟的产品体系,想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs

同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:https://github.com/DTStack

0条评论
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料
钉钉扫码加入技术交流群