博客 ChatGPT影响下的数据治理应该怎么做（一）

ChatGPT影响下的数据治理应该怎么做（一）

小美发表于 2023-03-10 11:21 747 0

140页深度干货，囊括15个典型成功案例，覆盖金融、集团、政务、制造、港口5大行业，全书从方法论到实践全面解码数据治理，开辟数据治理新范式，丰富内容可免费获取！

由 ChatGPT 引起的大模型热潮正席卷当下。众所周知，大模型的建立离不开海量数据，且大模型的最终效果取决于数据的质量，数据越丰富、质量越高，大模型表现效果越好。那么该如何针对大模型做数据的治理？

2月26日，由CSDN、《新程序员》、上海市人工智能行业协会主办，百度飞桨、达观数据、智源人工智能研究院协办的全球人工智能开发者先锋大会（GAIDC）“新程序员：人工智能新十年”论坛，复旦大学教授肖仰华以“面向大模型的数据治理”为主题，分享前瞻洞察与思考。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user6/article/73de6963896b52bc28f1b13fd7aea91b..jpg

肖仰华

以下为肖仰华演讲内容，CSDN在不改变原意的基础上进行编辑：

语言模型成为人工智能发展新底座，预训练的语言模型极大推动了自然语言处理（NLP）技术发展，成为语言智能的新范式、认知智能新底座。

然而，大模型仍存在诸多问题：如隐私泄露，训练大型语言模型的数据集通常很大，并且数据源较丰富，它们可能涉及名称、电话号码、地址等敏感个人数据，即使以公开数据训练也是如此，这可能导致语言模型输出里涵盖某些隐私细节。还可能会出现事实错误、逻辑错误等问题。

肖仰华表示，大模型要发挥价值，需要构建从数据产生、数据整理、模型训练、模型适配到实际部署的完整生态系统。大模型的数据治理是保障大模型质量的关键步骤，是当前国内在大模型研究方面极为稀缺的内容，是突破国外巨头对国内技术封锁的关键。

基于此，面向大规模的数据治理研究，可从以下三层架构来思考：最底层是基于大模型的知识质量评估体系、人在环中的大模型训练优化机制、复杂数据的预训练机制等基础理论，往上为样本纠偏、样本优化、多模融合、知识注入、事实编辑、领域适配、价值对齐、认知提升等关键技术，最上层是认知增强和推理增强，研究顺序逐层推进。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user6/article/40e30994de853bcd13babcce7ab60bff..jpg

下面我们逐一分析具体的理论与技术。

基础理论层

从上图中观察到，我们需重点建立大模型的知识质量评估体系，突破人在环中的大模型训练优化方法，探索序列、日志、图等复杂数据的预训练机制，提升大模型在特定领域与任务中的质量与性能。

1、大模型的质量评估体系。目前国内的模型评估体系大部分关注语言层面，然而今天的大模型不单是语言智能的载体，在国外一些研究中，将大模型当做具备初级认知能力的智能体。

因此在大模型质量评估上，不能仅仅停留语言处理层面进行评测，更多地，更为迫切是需要从人类认知的角度借鉴思路建立大模型的完整的评测体系，比如从认知发育理论借鉴理论指引，大模型是否具有可逆思维、创造思维、抽象思维、数值思维等能力，大模型是否存在认知偏见、是否存在认知障碍。大模型的评测关系到我们是否有资格成为裁判员。我们不能满足于只做运动员，我们更要成为裁判员，才能掌握大模型研究与应用的主动权。

2、人在环中的大模型训练优化机制

如今 ChatGPT 成功的重要原因是把对人类的反馈，通过强化学习的方式注入到大模型中。在ChatGPT中，人主要在以下两个方面发挥作用：一是利用人类的标注数据对GPT进行有监督训练，二是收集多个不同的监督模型（SFT）输出，由人类对这些输出进行排序并用来训练奖赏模型。那么这里面的基于排序的反馈是不是最佳的方式？有否更好的人类反馈方式？另外，如何让人以廉价成本实现高效大模型反馈？这里面仍有大量的问题需要研究和优化。

3、复杂数据的预训练机制。针对代码、基因、图等复杂形态的数据，如何实现不同形态复杂数据的高效预训练？这里面存在大量的机会。

关键技术详解

在研究面向大规模预训练模型的数据治理理论与认知增强时，涉及样本纠偏、样本优化、多模融合、知识注入、事实编辑、领域适配、价值对齐、认知提升等关键技术。

大模型的领域适配

肖仰华表示，在 ChatGPT 赛道上，国内比国外发展稍晚。那么在通用大模型上，如何有机会实现弯道超车？我们不能被人牵着鼻子走，需要开辟大模型研究与应用的新赛道，在领域赛道形成核心竞争力。大模型有非常宽的知识底座，但是垂直领域的知识密集度以及推理复杂程度远远跟不上理论专家的要求和需求，因此我们不但需要有宽度的大模型，还需要有深度的大模型，来匹配领域需求。

大模型样本纠偏

大模型样本纠偏是大家最早意识到的问题，大模型的效果与“喂”进去的数据息息相关。如果喂进有偏差的数据机器就学到有偏差的知识，因此我们需要纠正样本偏置，训练公平的大模型。

大模型的多模融合

大模型的异质多模融合是大模型实现跨模态理解的关键。目前很多大公司在做多模融合，但肖仰华建议“融合”不应局限在图片、语音、视频等，例如在工业场景，还涉及日志、传感器数据、图表等数据的融合。

大模型的事实编辑

大模型本质上是统计模型，对于特定事实或信念的可控编辑存在巨大挑战。需要让大模型遗忘、记住特定事实，这是需要攻克的研究点。

大模型的知识注入

大模型缺乏人类的知识，特别是专业知识。如何将人类的各类认知，比如领域知识、概念层级、价值观念注入到大模型？

肖仰华表示，做好大模型的特定可控编辑、大模型的知识注入，是大模型往领域推广和应用重要的问题。

那么数学、物理、医疗、司法等知识如何植入进去？以往知识图谱构建大量的知识库，是大模型在领域落地重要的助力工具。

大模型的持续更新

现有模型多是基于一次性的构建过程，缺乏持续性知识获取能力，如缺失大量新兴实体（如新型冠状肺炎），充斥过时知识等。另外，认知智能系统需要持续知识更新能力以应对现代的知识爆炸性增长，当前的大模型训练代价太大，更新成本巨大、效率低下。针对大模型的持续更新，还需要大家做很多工作。

大模型的样本优化

大模型训练的数据良莠不齐，需要进行精心的样本选择、样本转换、样本清洗、提示注入，才能训练得到高质量大模型。肖仰华表示，还可以通过对大模型的异质来源数据进行来源提示的增强，来显著提升大模型的质量。

大模型的价值对齐

肖仰华强调我们需重视大模型的价值对齐。目前现有大模型主要通过国外专家反馈训练，其价值观与国内有很大不同，通过对人类反馈的强化学习，实现大模型与人类价值的对齐，例如可通过构建匹配中式价值观的反馈训练样本，通过强化学习引导大模型生成符合伦理与价值观的回复。

大模型通过感知与融合人类的反馈能够实现价值认知的对齐与增强。如在《Constitutional AI: Harmlessness from AI Feedback》提到，通过设定constitution，利用RLAIF(RL AI Feedback)&RLHF，CoT等方法让大模型不逃避回答有争议问题，输出无害回答及解释。

免责申明：

本文系转载，版权归原作者所有，如若侵权请联系我们进行删除！

《数据治理行业实践白皮书》下载地址：https://fs80.cn/4w2atu

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友，浏览袋鼠云官网：https://www.dtstack.com/?src=bbs

同时，欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」，交流最新开源技术信息，群号码：30537511，项目地址：https://github.com/DTStack

ChatGPT 大数据治理数据中台数据管理数据治理数据标签数据资产

0条评论

上一篇：对于企业来说，数据治理的难点是什么？

下一篇：数据仓库如何选择计算引擎？

我要提问

分享经验

社区公告

大数据领域最专业的产品&技术交流社区，专注于探讨与分享大数据领域有趣又火热的信息，专业又专注的数据人园地

最新活动更多

ChatGPT影响下的数据治理应该怎么做（一）

我要提问

分享经验

微信扫码获取数字化转型资料

钉钉扫码加入技术交流群