前言简单回顾一下,上一话主要聊数据治理体系【数据治理】 第1话 - 建设思考,接下来第2话,主要讲讲数据治理应用中的用户画像“标签治理”。在当前的业务中,用户画像已经成为了重中之重,从模拟用户调研人群、分析挖掘用户使用的行为、预测/推荐用户兴趣等场景中,覆盖的...
00前言数据治理这一概念最近越来越受到企业的关注,笔者也在两家公司完成数据治理从0-1的建设,从数据集成、数据质量、数据资产、数据安全、数据交换各个环节。数据治理是个大话题,包含的环节也非常多,所以拆开了多期内容与大家共同讨论。01定义 数据治理基本上有两种定...
01数据流向02应用示例03何为数仓DWData warehouse(可简写为DW或者DWH)数据仓库,是在数据库已经大量存在的情况下,它是一整套包括了etl、调度、建模在内的完整的理论体系。数据仓库的方案建设的目的,是为前端查询和分析作为基础,主要应用于OL...
在当前的数字化转型浪潮下,“基础设施、配套设备、应用探索”的数字校园1.0阶段即将步入尾声、亦或已经完结,不同地区和类型的高校通过各类信息化系统和基础设施已经初步实现了业务数字化,整个数字校园的信息基础设施底座已有一定基础、信息时代教育治理新模式正在逐步呈现、...
问题背景某日袋鼠云运维小哥进行例行运维巡检,通过监控视图发现客户应用服务器cpu使用率突然呈上升趋势。通过专属服务群第一时间与业务方联系,与业务方确认是否有正在执行的定时任务,或者大范围拉取账单等业务操作。然而仔细分析了业务日志后,确认当时业务上并没有进行会消...
Hive是大数据领域常用的组件之一,主要用于大数据离线数仓的运算,关于Hive的性能调优在日常工作和面试中是经常涉及的一个点,因此掌握一些Hive调优是必不可少的一项技能。影响Hive效率的主要因素有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和H...
01引言2011年的时候我们在百度搜索Hadoop相关的问题每天只有零星几个,2015年再去百度搜索Hadoop已经有800多万个问题,而如今已然已经过亿了,Hadoop已成为大数据必备的基础设施了。Hadoop被公认是一套行业大数据标准开源软件,在分布式环境...
ChunJun是一个开始于2018年的批流一体数据集成框架项目,原名FlinkX。2022年2月22日,在FlinkX进行初版开源的整整四年后,技术团队决定对FlinkX进行整体升级,并更名为ChunJun,希望为大家真正提供一个稳定、高效、易用的批流一体的数...
福建是数字中国的思想起源和实践起点,2000年,在福建工作的习近平总书记提出了“数字化、网络化、可视化、智慧化”的数字福建建设目标,开创了数字省域建设的先河,此后数字福建战略引领福建省经济走向快速发展。作为领先的数字化技术与服务服务商,袋鼠云根植于浙江,服务辐...
介绍从数据库到数据仓库,最后到数据湖[1],随着数据量和数据源的增加,数据格局正在迅速变化。数据湖市场预计增长近 30%[2],将从 2020 年的 37.4 亿美元增长到 2026 年的 176 亿美元。此外从 2022 年数据和人工智能峰会[3]来看,数据...