大数据画像_数据应用_袋鼠云-袋鼠云丨数栈丨数据中台丨数据治理丨数据可视化丨数据运维

新闻动态

了解袋鼠云最新动态

「用户画像」用户画像的技术型号选择与构架完成

2020年11月12日|文章来源：-

「用户画像」用户画像的技术型号选择与构架完成，这儿解读下用户画像的技术构架和总体完成，那麼就从数据梳理、数据服务平台、朝向运用三个层面来探讨一个构架的完成(个人观点)。

「数据中台」数据中台紧紧围绕数据信息生命期的每个环节

数据梳理：

1、数据指标值的的整理来自系统结构平时累积的系统日志纪录系统软件，根据sqoop导进hdfs,还可以用编码来完成，例如spark的jdbc联接传统式数据库开展数据的cache。也有一种方法，能够根据将数据载入本地文件，随后根据sparksql的load或是hive的export等方法导进HDFS。

2、根据hive撰写UDF或是hiveql依据领域模型拼凑ETL，使客户相匹配上不一样的用户标签数据(这儿的指标值能够了解为每一个客户打上相对的标识)，形成相对的源表数据,便于于事后客户画像系统软件，根据不一样的标准开展标识宽表的形成。

「用户画像」用户画像的技术型号选择与构架完成，数据服务平台

1、数据服务平台运用的分布式存储为Hadoop的HDFS，由于Hadoop2.0之后,一切的大数据运用都能够根据ResoureManager申请办理資源，申请注册服务项目。例如(sparksubmit、hive)这些。而根据运行内存的测算架构的出現，就并不采用hadoop的MapReduce了。自然许多线下解决的业务流程，很多人還是趋向于应用Hadoop,可是hadoop的封裝的涵数仅有map和Reduce太过单一，而不象spark一类的测算架构有大量封裝的涵数(可参照blogspark栏目)。能够大大的提高开发设计高效率。

2、测算的架构采用Spark及其RHadoop,这儿Spark的适用范围有二种，一种是针对数据解决与顶层运用所特定的标准的数据挑选过虑，(根据Scala撰写spark编码递交至sparksubmit)。一种是服务项目于顶层运用的SparkSQL(根据起动sparkthriftserver与前台接待运用开展联接)。RHadoop的运用关键取决于针对标识数据的评分，例如运用协同过滤算法优化算法等各种各样推荐系统对数据开展各层面得分。

3、MongoDB运行内存数据的运用关键取决于针对单独客户的即时的查看，也是根据对spark数据整理后的标识宽表开展数据格式转化(json文件格式)导进mongodb,前台接待运用可根据联接mongodb开展数据变换，进而开展单独标识的呈现。(自然也可将数据变换为Redis中的keyvalue方式，导进Redis群集)

4、mysql的功效取决于对于顶层运用标识标准的储存，及其网页页面信息内容的呈现。后台管理的数据宽表是与spark关联，根据联接mysql接着cache元数据开展filter,select,map,reduce等对元数据信息内容的梳理,再与真正存有于Hdfs的数据开展解决。

「用户画像」用户画像的技术型号选择与构架完成，朝向运用

1、从刚刚的数据梳理、数据服务平台的测算，都早已将服务项目于顶层运用的标识大宽表形成。(客户所相匹配的各种标识信息内容)。那麼前台接待依据领域模型，启用不一样的标识开展求饶、去除等实际操作，例如当月总流量超过200M客户(标识)+当月消費超出一百元客户(标识)开展和的实际操作，根据前台接待编码完成sql的拼凑，开展顾客数量的探寻。这儿便是根据jdbc的方法联接spark的thriftserver，根据群集开展HDFS上的大宽表的计算求count。(这儿要留意一点，许多 sql聚合函数及其多表关系join等同于hadoop的mapreduce的shuffle,非常容易导致内存溢出，有关主要参数调节可参照本blogspark频道中的配备信息内容)那样便能够精准定位相对的顾客总数，进而开展顾客群、标识的剖析，商品的对策搭配进而大数据营销。

上一篇：「云成本优化」如何利用容器来减少云成本优化开支?

下一篇：《数据治理行业实践白皮书》正式发布，开辟数据治理新范式（附下载）