云计算、图像算法、大数据……这些技术点够吸引你吗?
丁先生是互金行业研发人员,9年工作经验,现在离职准备创业,他说:“技术这种东西,不用没关系,但是你一定要知道。”
梁先生,安恒信息高管,他参加技术沙龙的目的不外乎3点:认识人,知道大家对云计算的理解,学习。
孟先生是做市场的,但由于公司产品是大数据方面的,他最想知道的是目前云计算、大数据的产品落地。
还有一位程序媛,对数据算法情有独钟,再加上自家产品做的是数据中台,因此希望来学习借鉴。
他们收获了什么?
来自阿里云和袋鼠云的技术大佬的干货分享,了解大数据处理系统、数据中台和图像算法的技术理念和应用落地!
以下是干货关键点梳理
因此,大数据实时化是一种需求。越快越有竞争优势。
大数据实时化——流式处理
批计算:批量计算是一种批量、高时延、主动发起的计算任务。
由于是全计算,处理量大,耗时长,需要主动提交作业。
流计算是一种持续、低时延、事件触发的计算任务。
处理的是实时的数据流,计算是增量进行的,因此耗时短。
简单来说,批计算数据静态,计算动态;流计算数据动态,计算静态。
为什么要用阿里云流计算
2016年9月开始公测,2018年3月21日,阿里云流计算商业化。
优势
流式SQL
开发&运维门槛低
固定时间窗口下的单词计数功能
一站式平台
全链路、全周期、全托管
覆盖开发、调试、运维和报警
流处理上下游的管理都可以进行
具备支持团队,提供外部支持
数据生态
对接阿里云各种数据存储,无缝对接云上10+种数据存储。
Blink引擎
Flink的企业版。
选择Blink引擎还是因为目前的趋势是批流共存,批计算在离线下更有优势,而流计算的实时性更有竞争力。
企业数据中台体系案例解析
主讲:袋鼠云首席架构师—正风
企业的数据需求
做数据产品的时候往往会面对很多挑战,尤其是来自客户的质疑:你们“又”来了,都说大数据有价值,那么这个价值到底是什么?适合我们这样的传统企业吗?我们数据就这么一点怎么做,真的能实现出来价值吗?
事实上,数据对企业的实际价值是即便不能增量也能为其省下成本。
分享一个小案例:接触到一个客户,每年会投放百万的广告,但我们帮他做完数据分析后发现,广告所希望达到的交易量没有暴涨也没有波动,这意味着他之前所花费的广告费是没有产生价值的。
而我们能做的,就是对客户广告投放数据进行分析,明确客户用户画像,触达方式,实时调整广告策略,提高广告投放的投入产出比。
数据中台策略
我们经常谈到的“精准营销、智慧选址、智慧门店、销售预测、品牌舆情监控”等等,都属于数据应用的层面。很多企业做大数据,最开始都是从数据应用切入,企业的不同部门或者子公司,对数据应用的需求不同,所以以往企业每次做一个数据应用,都是竖烟囱似的,都把数据采集、数据治理、数据建模……重新做一遍,最终消耗了大量人力、物力、数据应用的效率却不高,数据价值备受质疑。
“数据中台”策略很好地解决了这一难题:
企业应从整体上构画数据应用,统一采集数据资源,进行集中治理,梳理自身数据资产,统一进行数据建模和数据指标规划。当企业需要做某一数据应用时,只需要统一到数据中台进行数据调用即可,如果自身数据不能满足数据应用的需求,再统一规划,进行外部数据补充。
所以,数据中台是一个战略思想,需要企业从战略层面构画和推动。
袋鼠云数据中台的七大服务:
数据资源规划及获取
数据质量分析及提升
基于中台策略的数据整体建模与数据资产管理
实体画像及标签引擎
数据指标体系梳理及计算(BI)
数据应用规划及实现(DI)
数据可视化大屏
简单来说,袋鼠云“数据中台”解决方案,力图解决企业数据“存、通、用”的难题,为企业内外部相关岗位的运转提供数据支撑,让数据应用产品直接产生业务价值。
我们收集到的产品画像信息基本与预期相同,线上消费茅台的用户,其年龄结构和消费群体都与想象有所差异,线上购买茅台酒的主要人群是25-29岁。
这将直接影响营销策略、产品策略、渠道策略等(更年轻化的方向)。
品牌卫士
通过分布式爬虫和搜索引擎,将来自新闻门户、论坛贴吧、博客社区、微博微信、资讯客户端、RSS聚合、视频站点等的多种多样的新闻源进行爬取采集,利用去重去噪、正文萃取和自然语言处理等前沿基础,对舆情内容进行实时聚类分析、情感分析、热词提取、相似性分析和智能过滤分析。
价格监测
由监测看板、违规监测、分析统计三大模块组成。
采用了当前主流的大数据和人工智能技术(比如:分布式爬虫技术、自然语言处理),分别对京东、天猫、淘宝上的茅台酒系列产品价格进行监测、分析和统计。
精准甄别“网络黄牛”
利用算法,在茅台自有电商渠道和茅台云商APP上建立“反黄牛机制”
图像算法应用—工业视觉分析
主讲:袋鼠云高级算法专家—胡丰
背景概述
智能制造是现代行业的发展趋势,许多生产制造企业提出或正在上马高科技自动化项目,力争实现由“制造”向“智造”的转型。
如何对这些数据进行有效地分析与挖掘,通过人工智能的算法建立自动化识别技节省不必要的人力资源成为传统制造业数字化转型要解决的一个问题。
常见工业视觉场景需求的理解
传统的制造业场景中,企业通过图像来进行缺陷识别,主要还是采用人工的方法进行处理,需要投入的人力多,工作量大,而且由于人工的主观原因,容易出现判错、判漏等情况发生。
在大数据和人工智能时代,制造企业可以通过图像识别算法模型自动对异常进行识别和分类,在满足精度的要求下,可以减少量测任务、图像识别模型的结果,也可以实时用于对异常产品的自动标定,通过对识别出来的故障产品实时警报进行生产干预,提高企业的生产效率和良品率。
实际工业视觉场景踩坑
1. 环境苛刻
2.客户需求不明确
3.业务\算法理解角度不统一
4. 样本随机\稀缺\比例失衡\特征杂乱\特征不全\干扰样本剔除不易
5. 模型选取难度大\模块过拟合不可控
端+云解决方案
此外,胡丰还分享了模型分类识别、图像场景分析、动态视频场景分析、算法流程,更有某半导体行业案例实战分析。
袋鼠云在大数据领域深耕7年,拥有丰富的大数据平台建设经验和成熟的产品体系,想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs
同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:https://github.com/DTStack