近日,AI“顶流”学者李飞飞的最新长文《从语言到世界:空间智能是人工智能的下一个前沿》刷屏时,整个科技圈再次被“升维”的焦虑击中。她指出,AI的下一个前沿是“空间智能”——让AI真正理解和交互物理世界。她将其称为“世界模型”(World Models),并强调了其三大核心能力:生成性、交互性,以及至关重要的多模态性。
而在企业数字化与智能化落地的场景中,这种多模态能力正是实现AI价值的关键前提。企业的数据不仅限于文本或结构化报表,还包括图像、视频、传感器数据等多种形式,呈现出天然的多模态特征。传统的数据平台往往难以统一管理和高效利用这些异构数据,限制了AI应用的深度和广度。本文将深入探讨企业在AI时代面临的数据挑战,并结合袋鼠云的实践,解析如何通过构建从大数据底座平台到多模态数据中台,真正激活企业的数据应用业务价值。
大模型时代的到来,推动了AI应用的百花齐放,从生成视频、图片、PPT到智能会议和Chatbot等场景,都依赖数据作为底层支撑。然而,企业级AI应用面临多重挑战,这些问题源于数据从结构化向多模态的演变,以及传统数据平台的局限性。
首先,数据规模与模态的爆炸式变化是核心痛点。传统数据主要以结构化形式存在(如表格、数据库),但AI时代要求数据从稳定增长转向爆炸增长,从单模态转向多模态(包括图片、视频、音频、文档等)。例如,在汽车行业,车辆信息表、传感器日志和高精地图矢量等数据并存;在电商领域,用户评论、商品图片和直播视频混合使用。这种多模态数据导致数据关联性从独立转向结构化关联,实时性从离线处理转向动态实时,安全性从弱管控转向强管控。同时,数据质量要求从准确完整转向真实高覆盖,企业需处理海量非结构化数据,但传统平台难以统一采集和存储,导致数据孤岛问题加剧。
其次,隐性知识未沉淀和效率瓶颈制约AI落地。企业内部存在大量“Know-how”,如资深工程师的故障排查经验或销售专家的沟通技巧,这些知识往往未被系统记录,导致AI训练数据不完整。传统BI工具依赖固定报表,无法满足敏捷、即时洞察需求,用户需跨系统调取数据,分析效率低下。此外,资源管理挑战突出:数据分散在关系型数据库、文件服务器和对象存储中,开发平台分离(结构化用离线/实时平台,非结构化用算法平台),上手门槛高,权限管理不统一,引发安全风险。
最后,政策与技术兼容性问题凸显。国家政策如《“数据要素×”三年行动计划》强调数据要素的放大作用,但企业面临国产信创要求(如兼容麒麟、统信OS和达梦数据库),原有Hadoop集群迁移复杂,AI算法与国产硬件适配难。这些挑战如果未解决,将阻碍AI从模型训练上半场转向真实场景评估下半场,企业难以实现数据驱动的智能化转型。
面对挑战,袋鼠云的解法是构建一个“Data + Compute + Intelligence 一体化” 的AI Ready数据底座 。这个底座的演进分为两个核心阶段:首先是构建坚实的新一代国产化大数据底座平台(EasyMR),其次是实现AI的数据全面Ready的DataZen多模态数据中台。
EasyMR是袋鼠云构建的面向未来的国产化AI数据底座平台 ,其核心是“1+4”全新产品矩阵 ,旨在解决最基础的存算、运维和国产化适配问题。
EasyMR的突出优势在于其自主可控和全面的信创兼容。它全面适配国产处理器(如鲲鹏、飞腾、海光) ,国产操作系统(如麒麟、统信UOS、龙蜥、openEuler) 及国产数据库(如达梦、人大金仓) 。
在安全体系上,EasyMR构建了可信、可控、可审计的底座 ,采用零信任防护层 ,基于Ranger实现库、表、行、列级的细粒度权限管控 ,并支持多级加密体系,全面兼容国密算法 。
EasyMR解决了“地基”问题,而多模态数据中台则是在此之上构建的“大厦”,其核心理念是实现所有模态数据的三大统一 :
统一数据集成
统一数据开发
统一数据资产管理
其产品架构涵盖了从多模态数据源 (结构化 、半结构化 、非结构化 ),经过统一的数据存储(HDFS 、MinIO S3 、Milvus )和多算力引擎(Spark 、Flink 、PyTorch/Ray ),到统一的数据开发层 、数据资产层 和最终的智能应用 。
从EasyMR演进到DataZen多模态数据中台,袋鼠云构建了三大核心能力,以满足AI时代的需求。
平台具备对接全域数据源的能力,无论是关系型数据库(RDB)、文档(PDF, Word)、图片、视频还是网页 和IoT设备 。
数据入库流程被统一重构:通过离线同步、实时采集或本地上传后,平台自动进行文件解析 、文件拆分和向量化 ,最终存入对应的向量数据库(Milvus)、对象存储(MinIO)或数据存储(HDFS)中。
这是平台的核心亮点 。袋鼠云实现了在一个平台、一个工作流中,完成跨模态任务的关联及数据融合开发 。
doc_normalizer (文本规范化), language_filter (语言过滤), minhash_deduplicator (MinHash近邻去重)。image_aesthetics_filter (低美学评分图片过滤), image_deduplicator (感知哈希去重)。video_duration_filter (过滤过长或过短视频), video_captioning_from_frames_mapper (视频帧抽帧生成文字描述)。数据入库和开发后,平台会形成统一的多模态数据资产 。
统一元数据:对结构化(库、表)和非结构化(文件、目录)的元数据进行统一存储 、统一向量化 、统一编目打标和统一血缘追溯 。
“EMR大数据底座平台+DataZen多模态数据中台”,为上层AI应用提供了坚实的支撑。
某大型制造业企业拥有20+PB数据,其中非结构化数据(车载传感器视频图像、技术文档等)占比高达74% 。
在银行贷款风控场景中 ,多模态中台发挥了关键作用:
某高校通过建设数据治理、指标体系与AI智能问数能力 ,实现了管理模式的转型。
平台还提供AI Copilot能力,直接赋能数据开发者和分析师。
如果说多模态数据中台是“备料”,那么袋鼠云自研的AIWorks智能体应用平台 则是“烹饪”的过程,它负责将数据激活为智能应用 。AIWorks的核心是重构产品交互逻辑,推动产品从“点击式界面”向“自然语言交互” 、从“单向工具”向“人机协同” 、从“硬编码规则”向“智能决策” 转变。
AIWorks 是一个低代码与模型编排平台 ,其核心功能包括:
智能问数与分析作为企业级AI应用的标杆场景,助力企业重新定义数据使用体验!
在AI时代的浪潮下,企业构建智能应用已不是“是否要做”的问题,而是“如何做好”的挑战。袋鼠云提供的“Data+AI”融合架构 给出了一条清晰的路径:
从坚实的数据底座,到包罗万象的多模态中台,再到敏捷的智能体应用,这一整套解决方案正在帮助企业构筑AI时代的真正护城河 ,驱动业务实现智能跃迁。