在人工智能技术飞速发展的当下,大模型与生成式AI已成为科技行业与实体经济共同关注的核心方向。面向企业级市场,如何将AI技术与业务深度融合,实现降本增效与数字化升级,成为众多企业管理者亟待破解的难题。
袋鼠云解决方案工程师——山文,围绕AI时代多模态数据底座建设展开深度分享,清晰阐释了多模态数据底座的建设背景、核心能力与平滑演进路线,为企业AI落地提供了可落地的实践指南。
传统数据处理遵循面向人的统计分析范式,业务数据经原始数据库入库后,通过固定规则清洗、SQL聚合计算,最终以报表、可视化图表的形式呈现给管理者与业务人员。这一过程以降维、聚合为核心特征,数据在层层汇总中丢失大量细节,难以支撑未知规律挖掘。
AI时代的数据处理转向面向大模型的推理范式,大模型可处理结构化数据、文本、图片、音频、视频等多模态数据,数据处理以智能解析、向量化、混合检索为核心,将语义与关键词召回后交由大模型完成内容生成。AI对数据量与维度无限制,却对数据规范性、统一性要求极高。
基于此,行业提出Data for AI核心理念:融合多模态数据,保留结构化数据价值,对接多维语义特征,打破数据孤岛,让AI实现精准推理与深度知识发现,完成从“给人看汇总结果”到“给AI看全量细节”的转变。
当前主流大模型技术快速发展,通用能力差距持续缩小,模型同质化趋势明显。企业AI落地的核心瓶颈,已从算力短缺转向高质量多模态数据供给不足。
企业私有化业务数据(网络拓扑图、设备运转记录、工单、行业规范文档等)是构建差异化竞争力的关键,这一现状为企业数据建设带来四大启示:
针对这一问题,袋鼠云在下一代多模态数据底座设计中,提出四大统一理念:
袋鼠云企业级多模态平台架构,自下而上涵盖数据源、统一数据融合、统一数据开发平台、数据管控体系等模块,可对接网页、社交媒体、文档、音频、IoT 设备、业务系统等各类数据源,支持 73 种异构数据源高性能双向读写,提供一站式低代码可视化开发环境,搭配统一元数据管理、数据安全与运维管控体系,最终实现全域数据可搜索、可看见、可溯源、可管理、可使用五大目标。
该平台具备四大核心能力,为多模态数据底座筑牢根基。
统一存储是多模态数据底座的物理基础,具备三大核心优势:
平台提供一站式低代码可视化开发环境,解决多模态数据加工难题:
这是底座最具AI价值的核心能力:
以数据可用不可见、特征可算不可取为目标,实现全维度安全管控:
依托该底座,还可延伸出多元应用场景,实现 AI 辅助数据开发与管理。平台搭载代码 Agent、数据治理分析 Agent、产品操作助手三大智能体,代码 Agent 可自动生成、优化 SQL 并进行报错分析;数据治理分析 Agent 可完成血缘分析、质量规则生成、指标归因分析;产品操作助手可结合企业知识库提供实时操作答疑,基于通用大模型与企业私有数据,打造高效开发生态。
企业无需推翻现有 Hadoop、数据中台、数据湖体系,袋鼠云提出不重建系统、能力平滑迁移的核心思路,在保留现有主数据库、数据湖、数仓、计算引擎与数据治理体系的基础上,以低成本、低风险方式构建多模态治理能力。
企业可通过语义增强、模型拓展、架构统一、安全合规升级四大方向完成能力提升:部署 Embedding 模型服务实现非结构化数据向量化;引入向量数据库支撑向量化检索;构建融合检索服务实现一站式数据查询;完成元数据语义化改造、补充业务标签、打通血缘系统。
具体落地可分为三个阶段稳步推进:
第一阶段为多模态数据资产化,夯实建设地基。企业需全面盘点并汇聚内部文档、音视频等数据,完成统一采集与纳管;部署解析服务提取文本,通过 Embedding 模型转换为向量并存入统一底座,最终形成标准化多模态数据资产库。
第二阶段为构建语义检索体系,打通数据壁垒。打通结构化与非结构化数据壁垒,搭建统一语义检索引擎,引入高性能向量数据库存储特征,对元数据进行深度语义化标注,部署企业级语义检索平台,赋能 RAG、智能计算等 AI 应用,提升内部检索效率。
第三阶段为AI Agents 规划应用,实现价值闭环。将语义检索能力深度融入核心业务流程,推动 AI 应用从单点试点走向规模化落地,开发问数 Agent、智能客服、行业知识图谱等高级应用,建立 AI 应用持续迭代与长效运营机制,让 AI 成为业务基础设施,全面驱动业务创新与数字化转型。
本次分享聚焦多模态数据底座架构与方法论,后续袋鼠云还将推出实战分享,由产品专家结合数栈多模态中台产品与客户案例,展示多平台数据处理与智能应用落地能力。