在越来越多企业推进 AI 应用落地的过程中,一个共识正在逐渐形成: model-centric 的发展已经达到一定瓶颈,那么现在决定 AI 应用效果的就是数据是否完备了。 尤其在真实业务场景中,AI 面对的从来不是“干净、规整的结构化表”,而是大量分散、异构、跨介质的多模态数据——合同、图片、音视频、扫描件、日志、文本记录,与少量结构化指标交织共存。如果这些数据无法被系统性管理和加工,AI 就只能停留在 Demo 阶段,难以真正走向规模化应用。
在银行、制造、政企等行业,我们看到大量企业已经完成了数仓建设,也开始尝试引入大模型、知识库或智能分析能力,但很快便遇到相似的问题:
从本质上看,这并不是 AI 工程能力不足,而是企业的数据体系仍停留在“结构化时代”。
而 AI 时代的数据底座,必须天然支持多模态。
多模态,并不等同于“把文件直接喂给模型”。真正决定 AI 能否长期可用的,是几个更基础的问题:
只有在这些条件之上,AI 才能建立在“可信数据”之上,而不是一个不可解释、不可复用的黑箱。
这正是袋鼠云数栈在多模态方向上的核心定位:为 AI 提供一个可治理、可复用、可持续演进的数据底座,而不是一次性的场景工具。
扫码获取袋鼠云多模态数据中台产品介绍
数栈 DataZen 多模态数据智能平台,源于成熟的结构化数仓体系,并在此基础上向多模态数据能力自然演进,帮助企业统一解决多模态数据的采集、加工、治理与应用问题。
平台并不围绕某一个模型或 AI 框架展开,而是始终聚焦于数据本身:
多模态数据,对底层能力的要求天然多样。
在数栈中,用户可以统一配置和管理:
这样的架构设计,并非为了追求“技术先进性”,而是为了更好地适应 AI 场景中不断变化的数据形态与处理需求。
统一接入
数栈支持将文件系统、对象存储以及各类结构化数据源统一接入平台,打破数据形态之间的物理隔离。
通过数据同步任务,用户可进行结构化数据与非结构化数据的同步。
数据集化管理
文本、图片、音频、视频等数据,不再只是文件目录,而是以“数据集”的方式被创建、管理和版本化,为后续加工和 AI 使用奠定基础。
在数据开发阶段,数栈为不同模态提供了最适配的处理方式:
更关键的是,二者可以在同一工作流中被编排和关联。
以知识库或智能风控场景为例:
这使得 AI 场景中的数据准备,从“一次性工程”转变为“可持续复用的能力”。
在多模态场景下,数栈构建了统一的数据资产与元数据体系:
数据血缘、加工过程和业务语义被完整保留,使每一份被 AI 使用的数据都可回溯、可解释。
经过治理和加工的数据资产,可以被推送至外部 AI 平台和知识库系统中,作为模型训练、推理和 RAG 应用的稳定数据来源。数栈并不绑定特定模型或厂商,而是通过标准化的数据输出能力,让企业可以根据自身节奏灵活演进 AI 技术路线。
在 AI 时代,真正拉开差距的,并不是模型参数的规模,而是数据底座的成熟度。数栈希望通过一套面向未来的多模态数据平台,帮助企业为 AI 提前准备好可以长期使用的数据基础设施。