博客 流计算、图像算法、大数据关键技术点梳理!

流计算、图像算法、大数据关键技术点梳理!

   包袋鼠   发表于 2021-11-25 14:55  228  0

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user9/article/5b5ec3ee21b07fdc980bbf5cbb5f4578..jpg

数据智能,让未来变成现在~


技术人天生就有一种紧迫感,对于技术热潮的追赶,对于新技术的渴求。


6月23日,袋鼠云联合养码场、3W举办了以数据智能实践为主题的线下技术沙龙。干货满满,一睹为快!


http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user9/article/01d43d5e10ef6f65ac09785ddd243ffa..jpg


云计算、图像算法、大数据……这些技术点够吸引你吗?


丁先生是互金行业研发人员,9年工作经验,现在离职准备创业,他说:“技术这种东西,不用没关系,但是你一定要知道。”


梁先生,安恒信息高管,他参加技术沙龙的目的不外乎3点:认识人,知道大家对云计算的理解,学习。


孟先生是做市场的,但由于公司产品是大数据方面的,他最想知道的是目前云计算、大数据的产品落地。


还有一位程序媛,对数据算法情有独钟,再加上自家产品做的是数据中台,因此希望来学习借鉴。


他们收获了什么?


来自阿里云和袋鼠云的技术大佬的干货分享,了解大数据处理系统、数据中台和图像算法的技术理念和应用落地!


以下是干货关键点梳理

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user9/article/9ba658889cdf67cb360750ba4f8b1fd4..jpg


基于流计算构建实时大数据处理系统

主讲:阿里云流计算产品经理——付空

 

为什么要用流计算


  • 数据是最重要的生产资料

用户使用系统,系统产生数据,数据处理决策,决策又影响用户,商业和数据形成闭环。

  • 数据的价值随着时间延迟迅速降低


比如实时推荐,在用户点击的时候感受到用户兴趣所在,刷新的时候能够推送他感兴趣的内容,帮助平台的用户留存和活跃时间的提高。

 

异常&欺诈检测,检测到是否为异常用户、薅羊毛行为,及时制止,实时止损。

 

实时调度:譬如了解库存指标,便于限流、车辆调度等决策。

 

 

因此,大数据实时化是一种需求。越快越有竞争优势。

 

大数据实时化——流式处理

  • 批计算:批量计算是一种批量、高时延、主动发起的计算任务。

由于是全计算,处理量大,耗时长,需要主动提交作业。

 

  • 流计算是一种持续、低时延、事件触发的计算任务。

处理的是实时的数据流,计算是增量进行的,因此耗时短。

 

简单来说,批计算数据静态,计算动态;流计算数据动态,计算静态。

 

为什么要用阿里云流计算

2016年9月开始公测,2018年3月21日,阿里云流计算商业化。

 

优势

流式SQL

开发&运维门槛低

固定时间窗口下的单词计数功能


一站式平台

全链路、全周期、全托管

 

覆盖开发、调试、运维和报警

流处理上下游的管理都可以进行

具备支持团队,提供外部支持


数据生态

对接阿里云各种数据存储,无缝对接云上10+种数据存储。


 Blink引擎

Flink的企业版。

选择Blink引擎还是因为目前的趋势是批流共存,批计算在离线下更有优势,而流计算的实时性更有竞争力。


如何使用流计算:场景落地

数据流(日志、LOT等)引入进行流计算过程,可以通过查询静态数据进行关联,结果输出可以是流式的也可以是静态的。


http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user9/article/84ddd22553dc9bb3b95ea9f24416e426..jpg

 

典型场景:实时推荐

通过中间元素将用户兴趣与商品进行联系:基于物品,参照用户以前看过的产品,基于用户,参照和该用户类似的人,基于特征,参照用户以前喜欢的产品的特征


而标签,是特征的一种表现形式:譬如豆瓣。

  • 好处:实现简单,效果好预期,可解释性强

  • 弊端:过于简单

 

流计算怎么做实时推荐?

通过设定长期兴趣标签(居住地、出生日期)和短期兴趣标签(5分钟内的点击率等)计算匹配度。


公式:

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user9/article/c789b0665ffacd34d344407ab032de85..jpg


但以上公式中存在问题,因为马太效应会导致热门信息的数值特别大,使结果发生变化,因此,我们选择做一些修改,把热门的标签做一个惩罚,降低权值。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user9/article/c03535b97fe0d9b197aa21fcca4f8b41..jpg

 

典型场景还有工业IoT、欺诈检测、实时报表等(具体流程图可见PPT课件)




http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user9/article/b2b9de642a2bb9fd0454ad62f00abb7f..jpg


企业数据中台体系案例解析

主讲:袋鼠云首席架构师—正风

 

企业的数据需求

做数据产品的时候往往会面对很多挑战,尤其是来自客户的质疑:你们“又”来了,都说大数据有价值,那么这个价值到底是什么?适合我们这样的传统企业吗?我们数据就这么一点怎么做,真的能实现出来价值吗?


事实上,数据对企业的实际价值是即便不能增量也能为其省下成本。

分享一个小案例:接触到一个客户,每年会投放百万的广告,但我们帮他做完数据分析后发现,广告所希望达到的交易量没有暴涨也没有波动,这意味着他之前所花费的广告费是没有产生价值的。

而我们能做的,就是对客户广告投放数据进行分析,明确客户用户画像,触达方式,实时调整广告策略,提高广告投放的投入产出比。

 

数据中台策略

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user9/article/1ca95f5b031acd29837d2f3def0b7325..jpg

我们经常谈到的“精准营销、智慧选址、智慧门店、销售预测、品牌舆情监控”等等,都属于数据应用的层面。很多企业做大数据,最开始都是从数据应用切入,企业的不同部门或者子公司,对数据应用的需求不同,所以以往企业每次做一个数据应用,都是竖烟囱似的,都把数据采集、数据治理、数据建模……重新做一遍,最终消耗了大量人力、物力、数据应用的效率却不高,数据价值备受质疑。


“数据中台”策略很好地解决了这一难题:

企业应从整体上构画数据应用,统一采集数据资源,进行集中治理,梳理自身数据资产,统一进行数据建模和数据指标规划。当企业需要做某一数据应用时,只需要统一到数据中台进行数据调用即可,如果自身数据不能满足数据应用的需求,再统一规划,进行外部数据补充。


所以,数据中台是一个战略思想,需要企业从战略层面构画和推动。


袋鼠云数据中台的七大服务:


数据资源规划及获取

数据质量分析及提升

基于中台策略的数据整体建模与数据资产管理

实体画像及标签引擎

数据指标体系梳理及计算(BI)

数据应用规划及实现(DI)

数据可视化大屏


 

简单来说,袋鼠云“数据中台”解决方案,力图解决企业数据“存、通、用”的难题,为企业内外部相关岗位的运转提供数据支撑,让数据应用产品直接产生业务价值。


数据中台核心—数栈

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user9/article/0e8c09cfab15ef685f5b30be1faeb4f9..jpg


 

数据中台应用—国酒茅台


国酒茅台案例分析:基于数据中台打造的茅台数据智能应用


http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user9/article/0ca6d4fe4313ba426d25386407c727ec..jpg


接手这个项目后,我们面对的现状是:数据不多。而客户希望获取面向企业内不同角色,输出不同数据指标助力茅台实现智能决策与管理。


最后,袋鼠云方面给出了以下解决方案


通过“品牌卫士”监控系统,快速实现对市场上茅台酒价格和品牌的时时监测和掌握,以及茅台电商购酒用户画像,通过这张画像,让茅台集团能够实时掌握电商平台的用户数、用户喜好、用户所在区域等情况,并通过大数据分析,不断完善自身平台建设、丰富产品、优化消费者购物体验。


  • 用户画像,谁在喝茅台

我们收集到的产品画像信息基本与预期相同,线上消费茅台的用户,其年龄结构和消费群体都与想象有所差异,线上购买茅台酒的主要人群是25-29岁。

这将直接影响营销策略、产品策略、渠道策略等(更年轻化的方向)。


  •  品牌卫士

通过分布式爬虫和搜索引擎,将来自新闻门户、论坛贴吧、博客社区、微博微信、资讯客户端、RSS聚合、视频站点等的多种多样的新闻源进行爬取采集,利用去重去噪、正文萃取和自然语言处理等前沿基础,对舆情内容进行实时聚类分析、情感分析、热词提取、相似性分析和智能过滤分析。


  • 价格监测

监测看板、违规监测、分析统计三大模块组成。

采用了当前主流的大数据和人工智能技术(比如:分布式爬虫技术、自然语言处理),分别对京东、天猫、淘宝上的茅台酒系列产品价格进行监测、分析和统计。


  • 精准甄别“网络黄牛”

利用算法,在茅台自有电商渠道和茅台云商APP上建立“反黄牛机制”




图像算法应用—工业视觉分析

主讲:袋鼠云高级算法专家—胡丰

 

背景概述

智能制造是现代行业的发展趋势,许多生产制造企业提出或正在上马高科技自动化项目,力争实现由“制造”向“智造”的转型。


如何对这些数据进行有效地分析与挖掘,通过人工智能的算法建立自动化识别技节省不必要的人力资源成为传统制造业数字化转型要解决的一个问题。


 

常见工业视觉场景需求的理解

传统的制造业场景中,企业通过图像来进行缺陷识别,主要还是采用人工的方法进行处理,需要投入的人力多,工作量大,而且由于人工的主观原因,容易出现判错、判漏等情况发生。


在大数据和人工智能时代,制造企业可以通过图像识别算法模型自动对异常进行识别和分类,在满足精度的要求下,可以减少量测任务、图像识别模型的结果,也可以实时用于对异常产品的自动标定,通过对识别出来的故障产品实时警报进行生产干预,提高企业的生产效率和良品率。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user9/article/ebac4ac78c668746f295ff27d576761e..jpg

 

实际工业视觉场景踩坑

1. 环境苛刻

2.客户需求不明确

3.业务\算法理解角度不统一

4. 样本随机\稀缺\比例失衡\特征杂乱\特征不全\干扰样本剔除不易

5. 模型选取难度大\模块过拟合不可控

 

端+云解决方案

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user9/article/6a107597dcbc47683a650185b057046f..jpg

此外,胡丰还分享了模型分类识别、图像场景分析、动态视频场景分析、算法流程,更有某半导体行业案例实战分析。


0条评论
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料
钉钉扫码加入技术交流群