博客 AI 时代，企业为何必须重新思考数据底座？

AI 时代，企业为何必须重新思考数据底座？

数栈君发表于 2026-04-15 17:32 2277 0

随着AI时代的快速到来，无论是模型的训练推理，还是各行各业在AI场景中的探索、试点与推广，都对数据提出了全新的要求。而这些数据能否顺利落地，很大程度上依赖于底层数据平台或数据底座的能力。

袋鼠云在数据中台领域已深耕超过十年。结合AI时代对数据的新需求，本篇我们将重点探讨在AI时代，企业为什么要重新思考数据底座？

一、高质量数据集：AI应用落地的基石

当前业内主流大模型（如豆包、通义千问、DeepSeek等）的泛化能力与推理表现，均高度依赖数据的质量与丰富度。而在上层AI应用（如问数系统、知识库等）中，若要从Demo或个人使用迈向企业级生产应用，同样离不开高质量数据集的支撑。

然而在实际落地过程中，企业普遍面临数据不完整、质量参差甚至存在错误等问题，大量未经治理的数据被直接输入模型，进而引发“幻觉”等不稳定现象。在生产环境下，这类数据难以直接支撑业务应用，往往需要投入大量人工进行校验与处理，显著增加了落地成本，也制约了企业在AI方向的深入探索与规模化推广。

二、政策驱动：国家大力支持AI与数据要素融合

为了配套支持AI应用的快速落地，国家近年来连续发布了多项政策，推动AI与各行业深度结合：

在国家密集政策的持续推动下，市场上已涌现出一批高质量数据集建设项目，尤其在政企领域表现尤为突出。

那么，什么才算是“高质量数据集”？2025年中国国际大数据产业博览会正式发布的《高质量数据集建设指引》给出了明确标准：高质量数据集应具备准确性、完整性、一致性、时效性、相关性、代表性与无偏性等关键特征。

以“准确性”为例，企业内部虽拥有海量数据，但由于跨部门口径不一，数据冲突现象较为常见，因此在建设高质量数据集时，必须优先保障数据结果的准确可靠。再看“完整性”，在问数等应用场景中，一旦问题超出知识库覆盖范围，系统便难以给出有效答案，这就要求企业对字段维度与系统范围进行系统化梳理与补全，确保数据体系的全面性。

三、高质量数据集对平台的核心要求

高质量数据集的落地，极其考验底层平台的能力，主要包括：

自动化的工具链：高质量数据的形成需要将企业各业务系统的数据、公网爬取的数据、接口调用的数据以及本地文件（文档、音频、视频）统一采集、整合、处理。整个链路需要自动化工具链来完成数据采集、清洗、人工或自动标注以及质量检查。
治理平台：围绕自动化工具链之上，需要一套治理平台来管理数据之间的血缘关系、数据滚动的校验以及质量监控，实现日常管控和运营。
数据安全与隐私：高质量数据最终要支撑各种AI应用和大模型，因此平台必须支持跨域联邦学习、数据可用不可见、数据脱敏加密，以及表级、文件级的精细权限管控。
多模态存储与计算：高质量数据集的来源包括文本、图像、音频、视频等，平台需要具备多模态的存储、计算和管控能力。

四、可信数据空间：破解数据孤岛与合规难题

在企业建设各种数据应用的过程中，需要用到内部私有数据，这就需要将企业知识库和各种数据灌入Data Agent相关应用中。然而，这些数据是否存在违规、跨域或跨权限访问的问题，面临较大挑战。实际落地中存在四大痛点：

数据孤岛与滥用：数据来自CRM、OA、财务等不同系统，存储在企业知识库、网盘甚至个人电脑上，分散存储形成烟囱，难以管控。
严苛的合规压力：随着《数据安全法》的颁布，个人隐私数据有明确的安全要求。如果通过公有云大模型调用，数据传输到互联网上存在较大安全隐患。
细粒度的权限管控缺失：大量数据整合后，需要明确哪些部门可以访问哪些数据。例如财务数据仅限管理层和财务部门，人力数据仅限人力部门。缺乏细粒度管控会导致数据被越权访问，引发内部风险。
溯源与审计困难：一旦发现数据违规使用，需要全链路数据流转追踪和事件定责的工具。

为此，构建可信数据空间成为必要，具体包括：

智能治理：通过AI自动化数据治理，实时监控数据链路和资产价值。
统一的连接器：适配各种异构系统，实现多元异构数据的安全接入与高效交换。
多模态能力：面向各类文件、音频、视频及系统数据，提供高性能的计算和处理能力。
数据安全：实现测试数据与生产数据隔离，最小授权粒度，关键数据可用不可见、可用不可出，支持精细化的细粒度权限管控。

五、Data Agent与RAG落地的挑战与应对

当前市场上出现了各种Data Agent，如问数Agent、营销Agent、数据洞察Agent等。这些Agent本质上都需要搭建一套知识库（RAG），将企业各类数据利用起来，并通过TextSQL等技术降低数据使用门槛，让非技术人员（如运营、销售、行政等）也能通过自然语言快速获取数据价值。

然而实际落地中面临诸多问题：

术语与指标难以理解：AI很难理解企业自定义的术语和指标，例如“爆款”“3C”“6C”“大客户”等，每个企业的定义不同。
数据质量与可信度：即使AI生成的语法和图表正确，但由于数据质量问题或模型环节问题，最终结果可能是错误的，导致管理人员无法直接用于决策。
基础设施瓶颈：多模态数据（文件、音频、视频）纳入后，数据量级从几个TB升级到PB级别。海量数据的处理需要GPU支撑，传统CPU难以胜任。同时，非结构化数据的管理方式不同于结构化数据，以往的元数据管理（如Hive表结构）已经失效。

六、多模态数据的广泛应用场景

除了高质量数据集和可信数据空间，还有大量数据应用需要底层多模态数据平台的支撑：

医疗诊断：整合患者就诊数据、拍片数据、健康体检数据，形成智能诊断方案。
内容创作：整合作者以往的写作数据和偏好，通过AI辅助生成创作内容。
智能客服：整合客户咨询记录、偏好、购买记录以及产品知识库、问答知识库，实现智能客服。
智能制造：通过生产车间的摄像头和传感器采集生产环节数据，结合生产系统数据，实现智能制造。
金融风控：整合用户借款记录、还款记录、消费习惯及关系网络，支撑金融风控场景。
教育、自动驾驶等场景同样涉及多模态数据平台的要求。

为了支撑这些场景，多模态平台需要采集企业内部外部的结构化与非结构化数据，让数据从单一系统维度走向多模态、多维化，使数据应用更加丰富和完善。

七、传统数据平台的“能力天花板”VS“多模态平台多维融合”

以往的传统数据平台在支撑上述应用时，存在以下问题：

数据类型汇聚不统一：传统平台主要采集结构化数据（如Oracle、MySQL、SQL Server等），对于非结构化数据（文本、图片、音频、视频）采集能力缺乏，需要不同技术工具，存储在不同位置（文件服务器、对象存储），形成割裂局面。
多模态语义搜索能力不足：传统平台主要支持结构化数据的二维表形式，搜索多采用关键词索引，难以支持向量化语义搜索。非结构化数据的处理需要专业算法人员（如图片关键词提取、文档切分、视频内容提取），上手门槛高。
元数据管理不统一：传统平台管理MySQL、Hive等元数据，而文件、视频、音频等可能存储在网盘、FTP、语雀、钉钉等不同平台，元数据无法打通，权限不一致，带来安全风险。
Data与AI流程割裂：传统数据平台主要为数仓而生，支持BI图表和仪表盘；而AI应用对非结构化数据要求高，两者技术栈和团队不同，开发和运维流程割裂。

基于以上问题，新型多模态平台需要具备以下能力：

多模态数据的统一采集：无论结构化、半结构化还是非结构化数据，无论存储在何处，都可以通过统一平台采集，实现技术栈和操作习惯的统一，避免数据孤岛。
统一的治理能力：通过GPU相关算子处理非结构化数据，并与结构化数据做关联或联邦计算，形成有价值的数据资产或数据集。
语义化搜索与知识构建：支持关键词、语义化、索引化搜索，统一管理元数据。用户可以在权限范围内查看结构化和非结构化数据（文件、音频、图片、系统表等），并进行统一搜索。
智能化的多模态数据处理与标注：平台内置大量处理算子，通过低代码方式快速解析文件、图片、音频，支持智能标注或人工标注，降低数据清洗成本，提高效率。

九、双轮驱动：Data for AI 与 AI for Data

在实施过程中，通过平台与方法的结合，可以落地高质量数据集和可信数据空间，支撑AI应用的快速发展和生产上线。我们总结出两种模式：

Data for AI · 数据供给侧

通过采集、清洗、标注、增强、评估等关键技术，为各种AI应用提供高质量的数据语料，最终保证产出的数据干净且可用，从而降低大模型的幻觉率，提高指标问数、ChatBI等AI应用的准确率。

AI for Data · 治理智能化

利用AI技术提高数据集处理和多模态数据形成过程中的效率。例如，传统治理需要人工逐个建立采集任务、清洗任务（从ODS层到DWD层等），并手动维护。而AI可以自动化建模、标注、数据约束和管控，大大提升数据治理效率。

通过Data for AI和AI for Data的双轮驱动，可以使多模态数据落地过程效率大幅提升，降低实施周期和成本。

十、未来三大演进方向

基于多模态数据平台和治理方法论，未来有三大核心演进方向：

① 数智一体化：以往数据治理和AI是两套平台建设。未来，数据平台、数据治理和AI平台应合二为一，在平台中内置AI能力（如向量搜索、智能问答、知识库），整合大模型、向量库、搜索引擎等技术组件，通过一道平台满足治理自动化、标注和向量化要求。

② AI自动化治理：基于数智一体平台，将大量重复性、有规则性、可定义SOP的治理工作交给AI完成，例如自动生成数据标准、自动检测不符合标准的数据、自动生成数据模型和ETL任务等。只要可以明确定义并有足够语料，AI就可以执行，从而降低实施工作量、成本和上线周期。

③ 数据安全内置：在平台的存储、加工各环节内置数据安全组件，包括文件/表的权限控制、数据脱敏加密、数据质量管控等，达到数据合规和最小颗粒度使用。

十一、袋鼠云多模态数据平台产品架构

基于上述理解，袋鼠云研发了多模态数据平台，产品架构如下：

左侧数据来源：包括各种关系数据库（Oracle、MySQL等）、MPP数据库、Hadoop体系数据，以及半结构化/非结构化数据（日志、网页、文档、图片、音视频等）。
统一数据集成：将上述数据采集到平台存储。
存储层：内置对象存储（MinIO、S3）、数据湖、向量库、图数据库等多样化组件，满足不同数据的存储和使用需求。
模型服务层：提供模型管理和服务能力，可对接DeepSeek、通义千问、豆包等第三方模型，进行管理、微调和推理。
统一元数据管理：通过Graphine等多模元数据管理组件，将非结构化和结构化数据的元数据统一管理。
调度层：实现CPU和GPU混合调度，特别是GPU调度支持非结构化数据的并发解析识别。
计算层：提供离线计算、实时计算、机器学习等处理能力。
开发治理层：统一的开发UI界面，支持低代码开发、数据质量检测、数据血缘、数据安全等能力。
AI应用：为问数Data Agent、智能客服、企业知识库、资产门户、知识图谱、高质量数据集等提供统一的数据能力。