博客 大数据应用的机器学习时代

大数据应用的机器学习时代

   数栈君   发表于 2023-06-27 17:32  182  0

当量变积累到一定程度之后,就会引发颠覆性质变。“还记得人工神经网络吗?”Christopher Nguyen问道。“当我们为其配备足够庞大的内存与计算资源,就会出现有趣的现象——它真正活了过来。”

作为Google Apps的前任工程技术主管,Nguyen提到的是他所建立的初创企业Adatao打造出的技术成果——这家公司刚刚从Andreessen Horowitz处获得了1300万美元投资。Adatao的价值主张分为两大部分:

pInsights,基于文档的虚拟化层,旨在为终端用户提供面向大规模数据集的简单实时化查询机制;

pAnalytics,一套以Hadoop与Apache Spark为基础的怪兽级数据处理引擎。

二者都包含有ANN(即人工神经网络)组件,这一原本仅仅以构想形式存在的技术方案如今借助庞大的内存与处理能力最终走上了商业化正轨。

Adatao的目标在于将大数据分析带入规模化体系,进而帮助用户借助包含大型数据集图表的Google Apps类文档实现协作。我曾经亲眼见证过该方案的演示效果,在采用由Amazon Web Services托管的八核心服务器集群(每台服务器配备30GB内存)的情况下,面向数TB级别数据集的查询任务能够很快得以完成。为了实现承诺中的易用性,Adatao公司需要利用ANN识别处理当中的数据对象、从而对通过输入简明英文表达进行的查询操作作出快速响应。根据Nguyen的说法,该系统能够识别最多20000个对象。

如果Adatao能够获得成功,他们将成为当之无愧的游戏规则改变者。但最令我感到兴奋的,仍然是其在人工智能方面取得的成就。

在观看了演示实例之后,我立刻打电话给我的朋友Miko Matsumura——Hazelcast公司市场推广事务副总裁,他曾经在耶鲁大学取得了计算科学硕士学位。我告诉他,根据我个人极为有限的理解,人工智能的实现在很大程度上已经转化为软件而非硬件课题,而Adatao的ANN技术似乎为实现这一构想提供了鲜活且可资借鉴的例子。

Miko旋即向我提到了Paul与Patricia Churchland得出的结论,他们曾经指出那些否认人工智能可能性的反对派就像是在黑暗的房间里挥动磁铁、并借此宣称磁性并不能产生光亮——这样的结论非常荒谬,无法发光只不过是因为他们的挥舞速度还不够快。时至今日,我们已经具备了点亮人工智能这盏明灯的巨大内存与计算容量,因此可以说人类已经站在了迈向技术新纪元的起跑线上。

事实上,这场竞逐早已开始,其主要实践性应用就是大数据分析。正如James Kobielus在今年早些时候所强调,“机器学习的普及程度已经如此之高,我们能够在多数大数据应用程序当中看到它们的身影。”

“我们的未来既充满光明也渗透着黑暗气息,”Miko这样描述第一次将机器学习机制纳入大数据方案所带来的影响。换句话来说,利用人工智能分析机制处理任何可用的互联网数据——其中包括收集自移动与可穿戴设备的、更为详尽的个人信息——网站与商家能够获取到极具实用价值的分析结论。与此同时,这也令我们普通用户不寒而栗,因为这种个性化帮助的背后隐藏着个人信息的大量外泄。

无论如何,机器学习与大数据协作的首要目标在于推动客户提高消费额度并保持理想的忠诚度,这其实并不令人意外。不过其潜在影响将延伸到每一个学科,从医疗保健到气象预测。随着计算资源的廉价化与规模化,新的智能系统已经由构想变为切实可行,我们也迎来了全新计算阶段所带来的一系列质变。否认这一点,显然无异于在黑暗中挥动磁铁。

免责申明:

本文系转载,版权归原作者所有,如若侵权请联系我们进行删除!


《数据治理行业实践白皮书》下载地址:https://fs80.cn/4w2atu

《数栈V6.0产品白皮书》下载地址:https://fs80.cn/cw0iw1

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs

同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:https://github.com/DTStack

0条评论
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料
钉钉扫码加入技术交流群