2026 袋鼠云春季数智发布会上,袋鼠云正式发布数栈 V7.0。作为数栈面向 AI 时代的一次重要大版本升级,V7.0 将产品定位从“大数据开发与治理平台”进一步升级为 AI-Ready 的多模态数据智能平台,围绕结构化、半结构化、非结构化数据的统一采集、存储、开发、治理、检索、服务与智能调用,帮助企业构建面向 AI 应用规模化落地的新一代数据智能基础设施。
这次升级也不只面向国内企业的 AI 转型需求。随着越来越多中国企业加速出海,数据平台还需要适配跨区域部署、海外云环境、本地化合规、多语言操作和全球化经营分析等新要求。数栈 V7.0 所强调的 AI-Ready,也正在进一步延伸为企业 Global-Ready 全球化经营中的数据基础能力。
从宏观趋势看,Data 与 AI 正在进入双轮驱动的新阶段。
一方面,国家围绕数据要素市场化、数据要素流通、可信数据空间、高质量数据集建设持续推进,底层逻辑非常清晰:AI 的规模化落地,需要高质量、可治理、可流通、可调用的数据基础。
另一方面,技术演进也在加速这一判断。Transformer 架构、大模型、智能体、数据平台云化、多模态处理技术持续发展,AI 正在从能力展示走向产业应用。然而,很多企业的 AI 项目在 Demo 阶段看起来很亮眼,但真正进入实际业务时却跑不起来。原因往往并不在模型,而在于底层数据还没有达到 AI-Ready 状态。
具体来看,企业数据体系主要存在四类断点:
因此,企业今天面临的关键问题已经变成:有没有一套真正能够支撑 AI 规模化运行的数据体系。
传统数据平台在结构化数据治理上已经积累了成熟能力,但进入多模态与 AI 场景后,新的割裂开始出现。
数栈 V7.0 的升级,正是围绕这些断点展开。
从 V7.0 开始,数栈将半结构化、非结构化数据纳入统一平台能力体系,与结构化数据一起完成融合采、存、管、用,支撑多模态高质量数据集建设、模型训推、知识库构建、智能问数、Agent 协同等 AI 应用场景。
这意味着,数栈正在面向 AI 时代进一步成为企业多模态数据智能中台。
围绕 AI-Ready 的企业多模态数据底座,数栈 V7.0 从计算存储、数据接入、低代码开发、资产检索、安全治理、智能体协同和国际化交付等多个层面,对数据平台能力进行系统升级。
AI 应用要稳定进入生产环境,首先需要解决底层资源与运行环境的问题。
多模态数据处理不同于传统结构化数据开发。它不仅涉及 SQL、批处理、实时任务,也涉及文档解析、图片处理、音视频处理、向量化、模型调用和分布式 Python 任务。任务类型更复杂,资源消耗更不稳定,对计算、存储、调度和隔离能力提出了更高要求。
数栈 V7.0 在底座层提供了统一的多模态计算与存储对接能力:
这类能力的价值在于,它让多模态数据处理不再依赖临时脚本、单机任务或孤立算法环境,而是进入企业级平台统一调度、统一授权、统一监控和统一运维的体系中。AI 应用背后的数据准备工作,具备了更强的可复制性和可持续性。
企业真正有价值的数据,并不只存在于数仓和数据库中。
合同、报告、图纸、图片、音视频、设备日志、网页数据、IoT 数据、项目文档、客服记录、操作手册,这些长期沉淀在业务系统、文件服务器和对象存储中的数据,正在成为企业构建知识库、行业模型、智能体和高质量数据集的重要原料。
数栈 V7.0 在数据集成层进一步增强了多模态数据接入能力:
这一步的关键价值在于:企业过去“存着但用不起来”的非结构化数据,开始进入可治理、可检索、可加工、可供给 AI 的数据链路。只有这些文档、图片、音视频、日志和业务记录被统一接入、解析、编目和向量化,模型和智能体才有可能真正理解企业自己的业务上下文。
多模态数据真正难的地方,不只是接入,而是处理。
过去,企业处理结构化和非结构化数据,往往需要在数据库、ETL 工具、离线开发平台、算法平台、NLP 工具、OCR 工具之间来回切换。每一次跨平台交互,都会带来数据搬运、接口维护、任务调度和问题排查成本。
数栈 V7.0 提供的是统一的低代码全景式开发体验:
针对非结构化数据开发,数栈 V7.0 同时支持 0 代码算子任务和高代码 Python 任务。算子任务基于 Ray 计算框架,引入 Daft、DataJuicer 等算子框架,支持用户通过画布拖拽方式,对文档、图片、音视频等数据进行过滤、映射、去重、聚合、解析和清洗。
在算子能力上,V7.0 已支持 50 多个算子,覆盖文本清洗、文本处理、图片清洗、图片解析等场景。
其中,文档类数据支持 PDF、Word、Excel、PPT、TXT 等常见格式的解析与内容抽取;文本类数据支持清洗、切分、去重、质量过滤与关键词提取;图片类数据支持质量检测、重复过滤、OCR 识别等处理;音频类数据支持语音转写与内容整理;视频类数据支持抽帧、字幕提取与关键内容抽取。
同时,数栈 V7.0 对算子任务的工程化体验也做了增强:
数栈 V7.0 把 AI 数据预处理、非结构化清洗、质量过滤、分块、向量化等工作,沉淀成可编排、可复用、可治理的数据流水线。随着算子资产不断积累,多模态数据开发将从一次性项目交付,走向可复制、可管理、可复用的工程能力。
多模态数据处理经常会依赖模型、镜像和复杂运行环境。比如某些文本处理、图片处理、OCR、Embedding 或质量评估任务,需要调用在线大模型,或在离线环境中加载本地模型;不同算子任务也可能依赖不同的 Python 环境、Ray 版本、Spark 环境和运行镜像。
如果这些能力依赖开发人员手动配置,很容易带来环境不一致、任务启动慢、模型下载失败、镜像不可见等问题。
数栈 V7.0 在这方面新增了模型中心与镜像中心能力:
数栈 V7.0 已经在补齐 AI 数据工程进入生产环境所需的模型管理、镜像管理和运行环境稳定性。
AI 要理解企业业务,不能只依赖原始数据,还需要理解数据的来源、含义、属性、标签、版本和血缘。
数栈 V7.0 通过元数据资产模块,对结构化、半结构化、非结构化数据进行统一管理。平台支持构建不同模态的数据集,定义技术属性、业务属性和管理属性,并对数据进行统一编目、打标、检索和管理。
在非结构化资产管理上,V7.0 做了不少更贴近日常使用的增强:
在检索方面,数栈 V7.0 支持元数据检索、全文检索、向量化检索的综合检索:
为了支撑这些检索能力,平台新增任务管理模块:
数据不仅要存下来,还要能被解析、能被理解、能被检索、能被追溯,最终能被知识库、RAG、Agent 和业务系统调用。对于企业知识库、产品资料、合同文件、项目文档、研发资料、运维记录等非结构化资产而言,这类能力非常重要。过去很多资料不是没有,而是找不到、找不准、找出来也不知道是否可信。数栈 V7.0 让多模态数据从“文件堆积”走向“资产可用”。
企业级 AI 应用一定绕不开安全。
数栈 V7.0 从产品架构层、数据层和功能层提供完整的数据安全能力:
针对非结构化文件管理,数栈 V7.0 也进一步强化了文件权限申请审批能力。没有文件权限的用户,如果需要预览、下载、删除文件,可以手动申请权限,并通过审批中心完成授权流程。申请人可在“我的申请”中查看记录和状态,审批人可在审批授权中处理审批单。
未来企业要把文档、图片、合同、音视频、日志等数据供给给知识库和智能体,必须先解决“谁能看、谁能用、谁能下载、谁能删除、谁调用过”的问题。这套安全体系解决的是企业 AI 落地中的核心矛盾:AI 需要更多数据,企业又必须守住数据安全边界。只有当权限、脱敏、审批、审计、血缘形成闭环,企业才有可能放心把核心业务数据持续供给给模型、知识库和智能体。
数栈 V7.0 的升级,并不止于多模态数据管理。
面向 AI 时代,数据平台本身也需要具备智能化能力。数栈 V7.0 中,灵瞳智能体作为常驻在页面右上角的 AI 助手,基于数据资产元数据库中的库表信息、血缘信息、数栈帮助文档以及客户自己的知识库,接入通义、DeepSeek 等模型能力,形成 3 个 Agent 和 1 个 Copilot 的能力组合。
灵瞳智能体的价值在于,它让数据平台从“人操作系统”进一步走向“人与智能体协同操作系统”。
未来,随着更多数据开发、治理、分析和应用能力被封装为 AI Skills,数栈将进一步成为企业智能体调用数据、理解语义、执行任务的重要基础设施。
数栈 V7.0 的多模态数据底座能力,除了面向国内企业,也正在服务企业出海和海外本地化数字化建设。
随着中国企业走向全球市场,数据平台建设面对的环境变得更加复杂:
数栈目前已支持中英文一键切换,整体操作逻辑和术语体系更加符合海外用户习惯。在底层能力上,数栈也完成了对海外主流云服务与存储计算体系的适配,包括 AWS 等云底座,并能够支持不同地区的数据合规与本地化部署要求。
在垂直行业场景上,数栈也具备针对海外复杂数据场景的解决能力。以 Web3 场景为例,客户往往面临链上、链下、多源异构数据融合治理的问题。数栈可以提供从数据接入、解析、治理到关联分析的一站式能力,帮助客户实现:
目前,数栈已在新加坡 Web3 数据平台迁移、中国香港高校数据中台与资产门户、立陶宛制造业多模态数据存算管、沙特本地化政企数字化建设等海外项目中积累落地经验。
数栈 V7.0 的 AI-Ready 能力,正在进一步服务企业的 Global-Ready 需求。对于正在出海的企业来说,未来的数据平台既要支撑 AI 应用落地,也要支撑全球化运营、跨区域协同和海外合规部署。
在发布会上,数栈还分享了一个基于 V7.0 能力建设的区域金融数据可信空间案例。
该项目由一个省级金融监管机构牵头,联合银行、保险、证券、政务、征信等 19 家机构共同建设。项目要解决的核心问题,是各类金融与政务机构手中拥有大量高价值数据,但由于隐私保护、合规要求、权责边界和监管约束,长期存在“不敢共享、不会融合、无法监管”的问题,导致数据价值难以释放。
在建设过程中,数栈主要承担了三类关键能力支撑:
项目最终带来了显著成效:
这个案例也说明,未来金融行业的数据竞争力,不只来自单个机构拥有多少数据,更来自能否在安全、可信、可监管的机制下,实现跨机构、多模态、可融合的数据协同。
面向未来,数栈将沿着三条主线持续演进,进一步打造面向 AI 时代的全链路多模态数据智能底座
数栈将进一步支持 Iceberg、Lance 等主流湖表格式的统一接入,支持基于湖表的多模态元数据统一建模,并打通 Flink、Spark、Doris 等多引擎协同读写能力。
未来平台将继续增强:
目标是让多模态数据从“存得下”,走向“管得好、用得稳”。
低代码开发的核心,是把行业经验沉淀为可复用的积木。
未来,数栈将把算子进一步资产化,建立版本记录和性能指标体系,让每一个算子都可管理、效果可衡量。同时,平台将持续沉淀行业场景化解决方案,例如:
未来,业务人员只需要描述业务需求,平台就可以智能推荐算子,甚至自动生成算子编排任务,让多模态开发进一步走向低门槛、智能化和行业化复用。
数栈将把数据集成、开发、治理、应用等全流程能力封装为可复用的 AI Skills,让专家经验可以快速复制落地。
同时,通过约束系统、反馈闭环、监控审计等机制,建立完善的 AI 工程化能力,让 AI 在平台上安全、高效、规模化运行。
另一方面,数栈也将通过 MCP 协议开放数据资产、指标、Text2SQL、鉴权等能力,让外部 Agent 可以更便捷地对接企业数据平台。
从统一底座,到行业级解决方案算子,再到 AI 能力开放,数栈正在持续推动数据平台从“支撑数据开发”走向“支撑智能运行”。
AI 应用正在进入更加务实的阶段。从结构化数据平台到多模态数据智能平台,数栈 V7.0 承载的不只是一次版本升级,更是袋鼠云面向 AI 应用落地和企业全球化经营,对下一代数据底座能力的一次系统重构。
未来,企业 AI 竞争的关键,在于能否构建一套持续供给智能的数据体系。数栈 V7.0 正持续致力于:打造 AI-Ready 的企业多模态数据底座,让数据真正成为企业智能化跃迁与全球化增长的长期基础。
扫码获取数栈V7.0产品白皮书