博客 让多模态数据真正可用,AI 才能走出 Demo

让多模态数据真正可用,AI 才能走出 Demo

   数栈君   发表于 2026-02-04 13:47  1029  0

在越来越多企业推进 AI 应用落地的过程中,一个共识正在逐渐形成: model-centric 的发展已经达到一定瓶颈,那么现在决定 AI 应用效果的就是数据是否完备了。  尤其在真实业务场景中,AI 面对的从来不是“干净、规整的结构化表”,而是大量分散、异构、跨介质的多模态数据——合同、图片、音视频、扫描件、日志、文本记录,与少量结构化指标交织共存。如果这些数据无法被系统性管理和加工,AI 就只能停留在 Demo 阶段,难以真正走向规模化应用。

AI 时代的数据挑战:构建多模态数据底座

在银行、制造、政企等行业,我们看到大量企业已经完成了数仓建设,也开始尝试引入大模型、知识库或智能分析能力,但很快便遇到相似的问题:

  • 非结构化数据分散在对象存储或文件系统中,只能依赖“人工查找”
  • 数据无法被统一检索、关联和追溯,模型输入高度不可控
  • 每一个 AI 场景都在重复进行数据准备,成本高、周期长、难以持续

从本质上看,这并不是 AI 工程能力不足,而是企业的数据体系仍停留在“结构化时代”。

而 AI 时代的数据底座,必须天然支持多模态。

多模态数据平台:AI 的“可控输入层”

多模态,并不等同于“把文件直接喂给模型”。真正决定 AI 能否长期可用的,是几个更基础的问题:

  • 数据是否具备清晰、稳定的业务语义
  • 数据是否可以被检索、筛选和灵活组合
  • 数据的来源、加工过程是否完整可追溯

只有在这些条件之上,AI 才能建立在“可信数据”之上,而不是一个不可解释、不可复用的黑箱。

这正是袋鼠云数栈在多模态方向上的核心定位为 AI 提供一个可治理、可复用、可持续演进的数据底座,而不是一次性的场景工具。

  https://assets.dtstack.com/2021bbs/files_user1/article/f8efc17a1d7b1ee3fb16852d05d45c62..png

扫码获取袋鼠云多模态数据中台产品介绍

数栈多模态数据智能平台:从数据治理到 AI 应用的统一通路

数栈 DataZen 多模态数据智能平台,源于成熟的结构化数仓体系,并在此基础上向多模态数据能力自然演进,帮助企业统一解决多模态数据的采集、加工、治理与应用问题。

平台并不围绕某一个模型或 AI 框架展开,而是始终聚焦于数据本身:

  • 让多模态数据第一次以“数据资产”的形式进入企业数据体系
  • 让 AI 的每一次使用,都建立在可追溯、可解释的数据基础之上

(1)面向多模态的统一计算与存储底座

多模态数据,对底层能力的要求天然多样。

在数栈中,用户可以统一配置和管理:

  • 结构化存储(如 HDFS)与非结构化对象存储(如 MinIO)
  • 基于 Kubernetes 的统一资源调度能力
  • 多种计算模型并行协作:
    • Spark / Flink / MPP 处理结构化计算
    • Ray 承载文本、图片、音视频等非结构化数据处理

https://assets.dtstack.com/2021bbs/files_user1/article/459c53ac3fd178d2fdc18c74d7df1bbb..png

https://cdn.nlark.com/yuque/0/2026/png/21840441/1770013613555-89405cc2-4642-4f1d-96d4-ce32a441744e.png

这样的架构设计,并非为了追求“技术先进性”,而是为了更好地适应 AI 场景中不断变化的数据形态与处理需求。

(2)让非结构化数据真正进入数据体系

统一接入

数栈支持将文件系统、对象存储以及各类结构化数据源统一接入平台,打破数据形态之间的物理隔离。

https://cdn.nlark.com/yuque/0/2026/png/21840441/1770013613986-17934a0a-28f9-4d22-aa6a-90bf83197d3e.png
https://assets.dtstack.com/2021bbs/files_user1/article/9e03ce52f39e9590ab7feb890a7dd493..png

通过数据同步任务,用户可进行结构化数据与非结构化数据的同步。

https://assets.dtstack.com/2021bbs/files_user1/article/fea1ea0fbacb1e6c4dc346233c2a7113..png

https://cdn.nlark.com/yuque/0/2026/png/21840441/1770013614340-1c51aadd-731a-4756-9feb-4514eee2adfa.png

https://cdn.nlark.com/yuque/0/2026/png/21840441/1770013614889-3ff5cc46-e273-42eb-b6f0-777afafda5fc.png

数据集化管理

文本、图片、音频、视频等数据,不再只是文件目录,而是以“数据集”的方式被创建、管理和版本化,为后续加工和 AI 使用奠定基础。

https://assets.dtstack.com/2021bbs/files_user1/article/c1e820919f0269824f790a6e0336b509..png

https://cdn.nlark.com/yuque/0/2026/png/21840441/1770013615274-a79e70dc-0b2f-47eb-b8e5-dd09243a5f82.png

https://cdn.nlark.com/yuque/0/2026/png/21840441/1770013615642-0193ec70-8597-4376-ba33-6296779c414b.png

(3)面向 AI 的多模态数据开发能力

在数据开发阶段,数栈为不同模态提供了最适配的处理方式:

  • 结构化数据通过 SQL 完成规则计算与指标处理
  • 非结构化数据通过 Ray 算子完成解析、切分与转换

更关键的是,二者可以在同一工作流中被编排和关联

https://cdn.nlark.com/yuque/0/2026/png/21840441/1770013616045-c0111acb-c76b-4e85-8772-3cfb9d437fc2.png
https://assets.dtstack.com/2021bbs/files_user1/article/a3ec1a88de542c10ca6e6bc5cb5c1b7b..png

以知识库或智能风控场景为例:

  • 先对合同、说明文档、影像资料进行解析与要素抽取
  • 再与结构化业务数据进行关联与筛选
  • 最终生成可被模型稳定消费的高质量输入数据集

https://cdn.nlark.com/yuque/0/2026/png/21840441/1770013616436-81f3af5f-619d-40fc-a7a7-109b4646fae3.png
https://assets.dtstack.com/2021bbs/files_user1/article/147d03e644f35226ad9477dc837ac76a..png

这使得 AI 场景中的数据准备,从“一次性工程”转变为“可持续复用的能力”。

(4)为 AI 打造可信的数据资产体系

在多模态场景下,数栈构建了统一的数据资产与元数据体系:

  • 自动解析多模态数据的结构与内容
  • 构建全文索引与向量索引
  • 支持基于元数据、内容和向量的综合检索

https://assets.dtstack.com/2021bbs/files_user1/article/e5f505cb871577459d5d48ecf1332626..png

https://cdn.nlark.com/yuque/0/2026/png/21840441/1770013616856-bccddfa7-cd80-43ed-b813-72fae3edf50b.png

数据血缘、加工过程和业务语义被完整保留,使每一份被 AI 使用的数据都可回溯、可解释。

https://assets.dtstack.com/2021bbs/files_user1/article/31f1653b357ff7ae6b92f766dc439f92..png

https://cdn.nlark.com/yuque/0/2026/png/21840441/1770013617305-6a1eb207-4e68-4e10-9042-fb3c71466e88.png

(5)连接 AI 平台,而非绑定模型

经过治理和加工的数据资产,可以被推送至外部 AI 平台和知识库系统中,作为模型训练、推理和 RAG 应用的稳定数据来源。数栈并不绑定特定模型或厂商,而是通过标准化的数据输出能力,让企业可以根据自身节奏灵活演进 AI 技术路线。

哪些企业最容易在 AI + 多模态上取得效果?

  • 已启动 AI 项目,但受限于数据质量与准备效率的企业
  • 拥有大量文档、影像、音视频资产的行业客户
  • 希望构建企业级知识库与智能分析能力的组织
  • 对数据合规性、可追溯性要求较高的业务场景

在 AI 时代,真正拉开差距的,并不是模型参数的规模,而是数据底座的成熟度。数栈希望通过一套面向未来的多模态数据平台,帮助企业为 AI 提前准备好可以长期使用的数据基础设施

0条评论
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料