你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!

博客让多模态数据真正可用，AI 才能走出 Demo

让多模态数据真正可用，AI 才能走出 Demo

数栈君发表于 2026-02-04 13:47 2328 0

在越来越多企业推进 AI 应用落地的过程中，一个共识正在逐渐形成： model-centric 的发展已经达到一定瓶颈，那么现在决定 AI 应用效果的就是数据是否完备了。尤其在真实业务场景中，AI 面对的从来不是“干净、规整的结构化表”，而是大量分散、异构、跨介质的多模态数据——合同、图片、音视频、扫描件、日志、文本记录，与少量结构化指标交织共存。如果这些数据无法被系统性管理和加工，AI 就只能停留在 Demo 阶段，难以真正走向规模化应用。

AI 时代的数据挑战：构建多模态数据底座

在银行、制造、政企等行业，我们看到大量企业已经完成了数仓建设，也开始尝试引入大模型、知识库或智能分析能力，但很快便遇到相似的问题：

非结构化数据分散在对象存储或文件系统中，只能依赖“人工查找”
数据无法被统一检索、关联和追溯，模型输入高度不可控
每一个 AI 场景都在重复进行数据准备，成本高、周期长、难以持续

从本质上看，这并不是 AI 工程能力不足，而是企业的数据体系仍停留在“结构化时代”。

而 AI 时代的数据底座，必须天然支持多模态。

多模态数据平台：AI 的“可控输入层”

多模态，并不等同于“把文件直接喂给模型”。真正决定 AI 能否长期可用的，是几个更基础的问题：

数据是否具备清晰、稳定的业务语义
数据是否可以被检索、筛选和灵活组合
数据的来源、加工过程是否完整可追溯

只有在这些条件之上，AI 才能建立在“可信数据”之上，而不是一个不可解释、不可复用的黑箱。

这正是袋鼠云数栈在多模态方向上的核心定位：为 AI 提供一个可治理、可复用、可持续演进的数据底座，而不是一次性的场景工具。

扫码获取袋鼠云多模态数据中台产品介绍

数栈多模态数据智能平台：从数据治理到 AI 应用的统一通路

数栈 DataZen 多模态数据智能平台，源于成熟的结构化数仓体系，并在此基础上向多模态数据能力自然演进，帮助企业统一解决多模态数据的采集、加工、治理与应用问题。

平台并不围绕某一个模型或 AI 框架展开，而是始终聚焦于数据本身：

让多模态数据第一次以“数据资产”的形式进入企业数据体系
让 AI 的每一次使用，都建立在可追溯、可解释的数据基础之上

（1）面向多模态的统一计算与存储底座

多模态数据，对底层能力的要求天然多样。

在数栈中，用户可以统一配置和管理：

结构化存储（如 HDFS）与非结构化对象存储（如 MinIO）
基于 Kubernetes 的统一资源调度能力
多种计算模型并行协作：

- Spark / Flink / MPP 处理结构化计算
- Ray 承载文本、图片、音视频等非结构化数据处理

这样的架构设计，并非为了追求“技术先进性”，而是为了更好地适应 AI 场景中不断变化的数据形态与处理需求。

（2）让非结构化数据真正进入数据体系

统一接入

数栈支持将文件系统、对象存储以及各类结构化数据源统一接入平台，打破数据形态之间的物理隔离。

通过数据同步任务，用户可进行结构化数据与非结构化数据的同步。

数据集化管理

文本、图片、音频、视频等数据，不再只是文件目录，而是以“数据集”的方式被创建、管理和版本化，为后续加工和 AI 使用奠定基础。

（3）面向 AI 的多模态数据开发能力

在数据开发阶段，数栈为不同模态提供了最适配的处理方式：

结构化数据通过 SQL 完成规则计算与指标处理
非结构化数据通过 Ray 算子完成解析、切分与转换

更关键的是，二者可以在同一工作流中被编排和关联。

以知识库或智能风控场景为例：

先对合同、说明文档、影像资料进行解析与要素抽取
再与结构化业务数据进行关联与筛选
最终生成可被模型稳定消费的高质量输入数据集

这使得 AI 场景中的数据准备，从“一次性工程”转变为“可持续复用的能力”。

（4）为 AI 打造可信的数据资产体系

在多模态场景下，数栈构建了统一的数据资产与元数据体系：

自动解析多模态数据的结构与内容
构建全文索引与向量索引
支持基于元数据、内容和向量的综合检索

数据血缘、加工过程和业务语义被完整保留，使每一份被 AI 使用的数据都可回溯、可解释。

（5）连接 AI 平台，而非绑定模型

经过治理和加工的数据资产，可以被推送至外部 AI 平台和知识库系统中，作为模型训练、推理和 RAG 应用的稳定数据来源。数栈并不绑定特定模型或厂商，而是通过标准化的数据输出能力，让企业可以根据自身节奏灵活演进 AI 技术路线。

哪些企业最容易在 AI + 多模态上取得效果？

已启动 AI 项目，但受限于数据质量与准备效率的企业
拥有大量文档、影像、音视频资产的行业客户
希望构建企业级知识库与智能分析能力的组织
对数据合规性、可追溯性要求较高的业务场景

在 AI 时代，真正拉开差距的，并不是模型参数的规模，而是数据底座的成熟度。数栈希望通过一套面向未来的多模态数据平台，帮助企业为 AI 提前准备好可以长期使用的数据基础设施。

AI应用数栈数据治理多模态数据处理平台人工智能 AIWorks 数字化转型需求管理袋鼠云

0条评论

上一篇：浅析百万级分布式调度引擎——DAGScheduleX能做...

下一篇：港口轻量化数据中台的高效构建方法与技术实现

我要提问

分享经验

社区公告

大数据领域最专业的产品&技术交流社区，专注于探讨与分享大数据领域有趣又火热的信息，专业又专注的数据人园地

最新活动更多

微信扫码获取数字化转型资料

热门产品

数雁EasyDigit 数栈DTinsight 数驹DTengine 易知微EasyV

解决方案

政务解决方案港口解决方案基金解决方案制造解决方案保险解决方案高校解决方案证券解决方案文旅解决方案银行解决方案大宗商品解决方案

快速入口

合作与生态开源社区 Github

联系我们

合作咨询 market@dtstack.com

联系电话 400-002-1024

总部地址杭州市余杭区五常街道阿里巴巴数字生态创新园4号楼袋鼠云

袋鼠云官方订阅号

袋鼠云官方订阅号

热门搜索：

数据中台企业数据中台金融数据中台离线数据中台数据中台公司一站式数据中台数据中台开发一站式数据开发数据中台解决方案大数据分析数据分析平台新基建大数据开发大数据开发平台数据化转型解决方案信创数据可视化数字孪生可视化大屏数字化转型

友情链接：易知微云掣

@Copyrights 2016-2023 杭州玳数科技有限公司浙ICP备15044486号-1 浙公网安备33011002011932号