随着AI时代的快速到来,无论是模型的训练推理,还是各行各业在AI场景中的探索、试点与推广,都对数据提出了全新的要求。而这些数据能否顺利落地,很大程度上依赖于底层数据平台或数据底座的能力。
袋鼠云在数据中台领域已深耕超过十年。结合AI时代对数据的新需求,本篇我们将重点探讨在AI时代,企业为什么要重新思考数据底座?
当前业内主流大模型(如豆包、通义千问、DeepSeek等)的泛化能力与推理表现,均高度依赖数据的质量与丰富度。而在上层AI应用(如问数系统、知识库等)中,若要从Demo或个人使用迈向企业级生产应用,同样离不开高质量数据集的支撑。
然而在实际落地过程中,企业普遍面临数据不完整、质量参差甚至存在错误等问题,大量未经治理的数据被直接输入模型,进而引发“幻觉”等不稳定现象。在生产环境下,这类数据难以直接支撑业务应用,往往需要投入大量人工进行校验与处理,显著增加了落地成本,也制约了企业在AI方向的深入探索与规模化推广。
为了配套支持AI应用的快速落地,国家近年来连续发布了多项政策,推动AI与各行业深度结合:
在国家密集政策的持续推动下,市场上已涌现出一批高质量数据集建设项目,尤其在政企领域表现尤为突出。
那么,什么才算是“高质量数据集”?2025年中国国际大数据产业博览会正式发布的《高质量数据集建设指引》给出了明确标准:高质量数据集应具备准确性、完整性、一致性、时效性、相关性、代表性与无偏性等关键特征。
以“准确性”为例,企业内部虽拥有海量数据,但由于跨部门口径不一,数据冲突现象较为常见,因此在建设高质量数据集时,必须优先保障数据结果的准确可靠。再看“完整性”,在问数等应用场景中,一旦问题超出知识库覆盖范围,系统便难以给出有效答案,这就要求企业对字段维度与系统范围进行系统化梳理与补全,确保数据体系的全面性。
高质量数据集的落地,极其考验底层平台的能力,主要包括:
在企业建设各种数据应用的过程中,需要用到内部私有数据,这就需要将企业知识库和各种数据灌入Data Agent相关应用中。然而,这些数据是否存在违规、跨域或跨权限访问的问题,面临较大挑战。实际落地中存在四大痛点:
为此,构建可信数据空间成为必要,具体包括:
当前市场上出现了各种Data Agent,如问数Agent、营销Agent、数据洞察Agent等。这些Agent本质上都需要搭建一套知识库(RAG),将企业各类数据利用起来,并通过TextSQL等技术降低数据使用门槛,让非技术人员(如运营、销售、行政等)也能通过自然语言快速获取数据价值。
然而实际落地中面临诸多问题:
除了高质量数据集和可信数据空间,还有大量数据应用需要底层多模态数据平台的支撑:
为了支撑这些场景,多模态平台需要采集企业内部外部的结构化与非结构化数据,让数据从单一系统维度走向多模态、多维化,使数据应用更加丰富和完善。
以往的传统数据平台在支撑上述应用时,存在以下问题:
基于以上问题,新型多模态平台需要具备以下能力:
在实施过程中,通过平台与方法的结合,可以落地高质量数据集和可信数据空间,支撑AI应用的快速发展和生产上线。我们总结出两种模式:
通过采集、清洗、标注、增强、评估等关键技术,为各种AI应用提供高质量的数据语料,最终保证产出的数据干净且可用,从而降低大模型的幻觉率,提高指标问数、ChatBI等AI应用的准确率。
利用AI技术提高数据集处理和多模态数据形成过程中的效率。例如,传统治理需要人工逐个建立采集任务、清洗任务(从ODS层到DWD层等),并手动维护。而AI可以自动化建模、标注、数据约束和管控,大大提升数据治理效率。
通过Data for AI和AI for Data的双轮驱动,可以使多模态数据落地过程效率大幅提升,降低实施周期和成本。
基于多模态数据平台和治理方法论,未来有三大核心演进方向:
① 数智一体化:以往数据治理和AI是两套平台建设。未来,数据平台、数据治理和AI平台应合二为一,在平台中内置AI能力(如向量搜索、智能问答、知识库),整合大模型、向量库、搜索引擎等技术组件,通过一道平台满足治理自动化、标注和向量化要求。
② AI自动化治理:基于数智一体平台,将大量重复性、有规则性、可定义SOP的治理工作交给AI完成,例如自动生成数据标准、自动检测不符合标准的数据、自动生成数据模型和ETL任务等。只要可以明确定义并有足够语料,AI就可以执行,从而降低实施工作量、成本和上线周期。
③ 数据安全内置:在平台的存储、加工各环节内置数据安全组件,包括文件/表的权限控制、数据脱敏加密、数据质量管控等,达到数据合规和最小颗粒度使用。
基于上述理解,袋鼠云研发了多模态数据平台,产品架构如下:
通过这一平台,企业可以快速构建AI应用所需的所有底层数据。
以往的数据平台核心是提供结构化数据整合能力,最终支撑BI报表、分析报表或门户等应用。但在AI时代,许多企业在建设AI应用时发现:问数、知识库、搜索不准或错误,准确率不高。回归问题本质,核心还是底层数据集和平台能力不够——数据不全面、语义度不高,导致AI应用难以在生产环境中发挥作用。
在AI时代,数据已从以往的辅助决策、辅助资源,升级为核心生产资料。企业AI能否落地,核心依赖于底座的高质量数据集能做到什么程度,平台能否支持高质量数据集的快速落地和效果呈现。
因此,我们总结未来产品的几大形态:
① 构建统一底座:抛弃以往数仓仅解决结构化数据孤岛的思路,多模态平台要将结构化和非结构化数据全域接入、灵活处理。
② AI Native 的智能流水线:通过AI能力处理多模态数据,加速实施落地周期,提高资产转化效率。
③ 可信数据空间构建:平台上承载了企业所有数据(结构化和非结构化),数据的管控颗粒度和权限便捷度是核心生命线。需要构建可信数据能力,统一管控各类数据,方便、安全地供下游应用使用。
④ 敏捷智真创新:AI技术快速演进,数据来源快速膨胀。结构化数据在企业中可能只占10%甚至5%,而非结构化数据将占到90%甚至95%以上。这对大规模存储、处理、搜索提出了更高要求。平台需要支持海量数据存储管控计算,快速集成新组件,支持敏捷创新,如多模态数据存储和CPU/GPU混合调度。