博客聚焦AI：人工智能数据治理的重点工作

聚焦AI：人工智能数据治理的重点工作

数栈君发表于 2024-09-11 16:22 482 0

《面向人工智能的数据治理实践指南（1.0）》共分为（“一、人工智能数据治理概念界定”，“二、面向人工智能数据治理的重点工作”，“三、面向人工智能的数据治理步骤”及“四、展望”）四个章节，本期将对第二章“面向人工智能数据治理的重点工作”的内容进行介绍。

面向人工智能数据治理的重点工作

数据治理理论已有多年的发展，相关治理逐步趋于完善和成熟。然而，针对人工智能领域的数据治理，由于治理对象与评价方式的特殊性，各方实践仍处于初步探索阶段。本章节我们将从数据质量治理、数据安全与隐私治理、数据伦理治理三方面展开探讨，为人工智能场景下的数据治理工作提供指导。这三大重点工作与传统的数据治理理论过程类似（如PDCA循环、安全分级分类等），但鉴于人工智能应用场景的特殊性，其在技术和实施细节上有所差异。

随着技术与产业实践的不断演进，数据治理的重点工作将持续补充和完善，以更好地适应人工智能领域日新月异的需求和挑战。

（一）数据质量治理

推进面向人工智能的数据质量治理是保障人工智能应用高质量、准确、持续可用的重要基础，这要求企业找准人工智能应用建设过程中的数据质量治理需求，把握人工智能数据质量治理与传统数据质量治理的差异，精准识别人工智能数据质量治理的范围和对象，从而帮助企业科学设计人工智能数据质量治理的机制、方法和步骤，建设面向人工智能的全面的数据质量治理技术能力，以良好的数据质量治理实践预防和杜绝数据质量问题，提高人工智能应用的性能和效果。

1. 治理方法

面向人工智能的数据质量治理是确保数据质量对人工智能模型效果的重要保障。数据质量管理贯穿于人工智能研发、管理和应用的整个生命周期，需要建立一套完善的数据质量管理体系，制定相应的数据质量管理制度和流程，并明确各环节的责任和要求。

同时，还需要建立有效的数据质量评估和监控机制，以确保数据质量符合要求，为人工智能模型的训练、调优提供高质量、高可信度的数据资源，从而提升模型表现效果。

1）需求分析与质量目标设定

在面向人工智能的数据治理过程中，数据质量治理始于需求分析与质量目标设定阶段。明确人工智能应用对于数据质量和数量的具体需求，设立针对性的数据质量基准和目标。通过这一系列的数据需求分析与质量目标设定工作，可以为后续的数据清洗、预处理、特征工程、标注和增强等数据质量管理活动提供清晰的方向和依据，确保整个数据治理体系围绕既定目标有序展开，最终提升人工智能模型的性能和稳定性。

2）制定数据质量管理体系

在面向人工智能的数据治理过程中，制定数据质量标准和规范是极为关键的一环，其主要任务是建立一个全面、严谨的数据质量评价指标体系。通过这样的数据质量标准和规范体系，能够对数据治理过程中的数据进行全方位、多层次的质量评估，指导数据清洗、预处理、标注等活动的开展，进而保障人工智能应用所用数据的质量，推动模型训练和应用效果的提升。

3）数据源评估及采集

从数据的源头控制好数据质量，让数据“规范化输入、标准化输出”是解决人工智能数据质量问题的关键所在。同时不仅关注数据来源的可靠性，而且考虑数据是否涵盖足够的维度和场景，确保数据来源、质量和多样性。

4）数据预处理

数据标注与数据增强是数据质量管理活动中不可或缺的部分，它们能够在有限的数据资源基础上，通过创新技术和策略，生成大量高质量的训练数据，有力支撑人工智能模型的高效训练和准确预测。

a. 数据清洗：此阶段聚焦于消除数据中的错误、不完整、不一致和重复等问题。具体措施包括：

缺失值处理：通过填充（如使用平均值、中位数、众数等）、插值或其他方法处理缺失值。
异常值检测与处理：识别并移除或者替换那些明显偏离正常范围的数据点，防止其对模型训练产生不良影响。
数据一致性校验：对同一实体在不同数据源中的记录进行比对和整合，保证数据的一致性。
去重处理：识别并移除非唯一标识的重复数据记录，避免因重复样本导致的模型训练偏差。

b. 数据标注：在某些AI任务中，尤其是监督学习场景下，模型需要依赖带有标签的高质量数据进行训练。高质量的数据标注能有效提高模型理解和学习数据的能力，为后续模型训练奠定基础。

c. 数据增强：即使经过精心标注，实际可用的数据量也可能受限，这可能会导致模型过拟合等问题。数据增强技术旨在通过一系列规则或算法人为地扩增训练数据，如在图像识别任务中采用翻转、旋转、裁剪、色彩变换等方式生成新的训练样本；在文本数据上，可通过同义词替换、句式变换等方式生成不同的表达形式。数据增强不仅可以有效扩大训练样本空间，还可以提高模型的泛化能力和鲁棒性，降低过拟合的风险。

5）特征工程

对已预处理过后的数据，可能仍然存在不满足人工智能需求，其目的是通过对已清洗和预处理过的数据进行深层次的分析和转换，提取、构造出最具价值的特征，以满足后续人工智能模型构建的需求。通过特征工程的实施，可以极大提升数据对于人工智能模型的解释能力和预测能力，进而增强模型的泛化能力和实用性。

6）数据偏见检测与矫正

在数据治理的过程中，深入挖掘并矫正数据偏见是构建负责任且公平的人工智能系统的基石，有助于避免AI应用在社会生活中可能造成的歧视和不公。

a. 数据偏见检测：数据偏见检测主要通过统计分析、可视化手段以及特定的偏见评估框架来发现潜在的不公平现象。例如，在分类任务中检查不同群体的误分类率是否存在显著差异，在回归任务中审视因变量预测值是否受无关属性（如性别、种族）的影响过大等。

b. 偏见矫正：在发现数据存在偏见后，数据质量管理活动会采取一系列措施来矫正这些偏见，从而提升模型决策的公平性。

7) 常态化数据质量监控

在面向人工智能的数据治理过程中，数据质量管理活动的一个核心环节是常态化数据质量监控，该环节贯穿于整个AI项目生命周期，既包括模型训练阶段，也涵盖模型推理阶段。常态化的数据质量监控不仅是数据治理的重要组成部分，也是确保人工智能应用成功运行、产出高质量成果的必要条件。无论是训练还是推理阶段，都需要对数据质量进行严格的把关，以应对不断变化的数据环境，持续优化数据质量和模型效果。

a. 模型训练阶段的数据质量监控：在模型训练前，系统应具备实时数据质量监测功能，对输入的训练数据持续进行完整性、一致性、精确性、及时性等方面的监控。一旦发现数据异常或质量问题，如数据分布突然变化、出现大量缺失值、新增数据格式不合规等情况，应及时触发告警机制，以便快速定位问题源头并采取相应措施进行修复或清洗。只有确保数据质量达到预期标准，才能将其用于模型训练和微调，以期得到精准、可靠且具有泛化能力的AI模型。

b. 模型推理阶段的数据质量监控：即使模型进入推理阶段，数据质量监控工作依然不能松懈。对于模型接收的实时或批量推理请求所携带的数据，也需要执行严格的数据质量检查，确保数据格式正确、内容合法、业务逻辑合理，避免无效数据、恶意攻击数据或不符合模型输入规范的数据对模型运行造成干扰或损害。通过实时数据质量监控，能够迅速发现并拦截有问题的数据输入，保障模型推理的稳定性和准确性。

8）持续改进

在面向人工智能的数据治理过程中，数据质量管理活动的持续改进是一个动态迭代、持续优化的过程。不断地总结经验教训，优化数据质量管理的方法和流程，实现数据质量的螺旋式上升，从而为人工智能系统提供更为精准、可靠的数据支撑，推动AI技术的健康发展。

该过程可能包括：定期复盘过去的数据质量管理活动，总结成效、发现问题，为改进提供方向；提炼经验教训，制度化有效策略并规避同类问题；紧跟AI技术发展，优化数据采集、预处理、清洗、标注等环节，提升管理方法和流程的科学性与高效性；密切关注并适时引入新的数据处理与质量管理工具，以应对复杂挑战，提高数据质量，促进AI模型训练与应用效果。

2. 治理技术

在面向人工智能的数据治理过程中，数据质量治理涵盖了从数据准备到模型训练、再到模型部署应用的全过程，每个阶段都有相应的数据治理技术来确保数据质量。借助一系列先进的治理技术，实现了从数据获取到模型应用全程的数据质量问题管理和控制，为AI模型的成功构建和稳定运行提供了强有力的支持。

数据清洗：数据清洗是数据预处理中的一项基本任务，旨在去除数据中的噪声、异常值和重复信息。随着机器学习和人工智能的发展，数据清洗技术也在不断进步。现在，通过使用自动化工具和机器学习算法，可以更高效地识别和纠正数据中的错误和不一致性，提高数据的质量和可靠性。

自动化与智能标注：传统的数据标注方法通常需要大量的人工劳动，成本高昂且耗时。为了解决这个问题，自动化标注技术应运而生。自动化标注使用机器学习算法和计算机视觉技术自动识别和标注数据，大大提高了标注效率并降低了成本。对于某些复杂的数据类型，完全自动化的标注可能无法达到高精度。在这种情况下，交互式标注和可编辑的标注成为一种有效的解决方案。这些方法允许用户对自动标注的结果进行手动编辑和调整，以提高标注的准确性和精度。

特征工程：特征工程是将原始数据转换为特征向量，供机器学习算法使用的技术。随着机器学习和人工智能技术的发展，特征工程技术正朝着自动化和智能化方向发展。通过使用机器学习算法和自然语言处理技术，可以自动识别和转换数据中的特征，提高数据处理的效率和准确性。

数据增强：数据增强是通过生成新的训练样本扩展数据集的技术。在深度学习和计算机视觉领域中，数据增强扮演着重要的角色。通过使用旋转、翻转、裁剪等技术，可以增加数据的多样性和丰富性，从而提高模型的泛化能力。

多模态数据处理和分析：随着多模态数据的普及，数据质量特征工程技术正朝着多模态数据处理和分析方向发展。多模态数据包括文本、图像、音频和视频等多种形式，每种形式都有自己的特征和属性。通过多模态数据处理和分析技术，可以综合利用不同模态的数据，提高数据分析和预测的准确性和可靠性。

（二）数据安全与隐私治理

推进面向人工智能的数据安全与隐私治理是保障人工智能被安全、可靠使用的基础。在训练算法模型的过程中，会利用到企业和个人的身份、隐私和交易等数据，通过对人工智能应用全生命周期的数据安全与隐私数据进行治理能够有效的保护个人隐私、防止数据泄露并且避免算法被数据投毒所侵害，研发可以被放心使用的人工智能应用。

1. 治理方法

1）建立数据全生命周期安全监督机制

为确保数据全生命周期的安全性，需建立包含数据采集、处理、存储及输出的全面安全保障机制。这涉及确保数据集多样性与公平性、实施数据处理与加密措施、制定严格的数据使用规定等。在数据治理中，透明度与知情权的保障至关重要，需明确告知用户数据收集目的，并允许用户自主决定是否共享个人信息，增强隐私控制。遵循数据最小化原则，仅收集必要的个人数据，并定期审查清理，以降低隐私风险，确保数据安全。

2）制定数据集安全风险分类管理体系

为应对人工智能领域的安全挑战，需构建一个基于应用场景、影响范围和风险的分类分级管理体系。该体系应对高风险领域进行定期的数据安全能力评估，并根据风险级别采取差异化的管理策略，实现精细化管理。

首先，明确隐私数据的定义和范围，对数据进行等级分类，指导数据使用模块对不同安全等级的数据进行模糊化处理，以降低泄露风险。数据安全管理应贯穿整个数据治理生命周期，通过分类分级为信息安全管理提供指导，帮助制定安全策略和保护措施，确保数据治理全面合规。数据分级还涉及对数据破坏后果的预估和公众危害程度的分析，确保各级数据得到适当保护。

其次，建立数据安全管理系统，支持数据分类的增删、搜索和敏感词管理，优化资源分配与共享，增强数据安全意识，引导用户主动保护数据安全。

通过这些措施，可以有效地评估和管理数据安全风险，确保数据的安全性和合规性。

3）数据加密

应用先进的加密算法对数据进行加密，确保数据在存储和传输过程中的安全。其次，构建全面的安全管理体系，涵盖安全审计和漏洞扫描等环节，以监测和防御潜在风险。技术层面上，实施坚固的加密技术和身份验证机制，防止未授权访问，增强系统的整体安全性。这些措施共同构成了强化数据安全保障的核心，有效抵御数据泄露和网络攻击。

4）风险评估

为了确保人工智能模型的安全性和可靠性，需要加强模型评估，以判断其对潜在威胁的反应能力和逃避监管的可能性。这包括评估模型是否具有危险行为的倾向，并验证其行为是否与设计预期相符，同时对模型的内部机制进行审查。此外，风险评估是数据治理的持续任务，需要定期执行以识别和防范数据安全和隐私方面的风险。通过这些措施，组织可以制定有效的应对策略，确保数据和隐私得到有效保护，及时应对安全挑战。

5）教育与培训

安全与隐私是人工智能应用的红线，为组织内部人员提供关于数据安全和隐私的培训，增强人员安全隐私的意识，有助于构建一个全员参与的安全文化。同时，向用户提供关于安全实践和隐私保护的教育，使其更加自觉地保护个人信息，进一步提升整个生态系统的安全性。

6）监管与合规审计

建立有效的监管机制，监督人工智能系统的运行，以及进行定期的合规审计，确保系统的运行符合相关法规和政策，是保障治理有效性和可持续性的关键步骤。通过这一系列综合的治理方法，可以全面而有效地应对人工智能数据安全与隐私治理的复杂挑战。

2. 治理技术

1）安全治理技术

异常数据检测：利用异常样本和良性样本的分布差异或在隐藏空间上的特征差异，检测数据中的异常值。

数据增强：数据增强对于对抗攻击、后门攻击、投毒攻击来说都是有效防御机制，在丰富数据集多样性的同时，可降低异常数据的有效性。

鲁棒训练：通过改进训练过程来降低恶意数据的影响，提高大模型面对对抗样本的预测准确率。

数字水印：水印技术是一种在数据中嵌入隐蔽标记的方法，用于追踪数据来源，增强数据安全性和可溯源性。技术的最新进展在于对抗性水印，它通过复杂算法和模型抵抗包括篡改和定向攻击在内的多种攻击，保护数据完整性和隐私。

安全对抗：安全对抗技术对人工智能数据安全与隐私治理至关重要，安全对抗技术是一种主动的安全策略，通过模拟攻击行为来预先发现和修复系统潜在漏洞。通过提高安全对抗技术的有效性，人工智能系统能够更主动、全面地保护数据安全，确保用户信息不被恶意获取或滥用。

加密与脱敏：加密技术和安全协议是确保数据在传输和存储过程中不被未授权访问、窃听或泄露的关键手段，尤其是在云环境或网络传输中。数据脱敏技术通过变形敏感信息，保护个人隐私，同时保持数据的可用性，降低隐私风险，对AI数据安全治理起着核心作用。

2）隐私治理技术

差分隐私：通过对数据加噪，确保训练集中某一数据不论存在与否，对模型预测结果的影响都有限，从而阻止攻击者根据模型输出推断数据集中的具体数据信息。

同态加密：同态加密在明文和密文上进行计算得到的结果相同，因此可以直接在加密后的隐私数据上进行运算，保障数据隐私。但同态加密时间复杂度高，面对海量数据效率较低。

安全多方计算：安全多方计算允许各参与方输入对其他方保密的情况下，根据输入共同计算一个函数，确保了整个系统中个体敏感数据的隐私性。

匿名化：匿名化技术的最新进展集中在不可逆加密方法和差分隐私技术上。不可逆加密方法通过使用无法逆向解密的算法，确保个体身份信息在处理后无法还原，有效保护数据主体隐私。差分隐私技术则通过在数据发布或处理时加入噪声，防止重新识别攻击，保护个体身份信息不被泄露。

概念擦除：概念擦除技术通过修改数据中的敏感信息来降低隐私泄露的风险。最新的概念擦除方法不仅关注隐私保护，还考虑在信息擦除的同时保持数据的分析可用性。

（三）数据伦理治理

在科技高速发展的背景下，对人工智能中伦理道德的关注程度及应对方法仍未完全跟上技术的发展步伐。生成式语言模型作为人工智能的最新范式，其通过深度学习技术和大规模数据集生成文本内容，其算法“平等”的保留了训练数据中的偏见、黄色、恐怖和暴力等不当内容，进而在应用中造成不可逆的严重后果。针对这些问题，设计及加强对人工智能所需数据集的管控，成为至关重要的发展方向。

1. 治理方法

1)制定数据伦理政策

在人工智能数据处理过程中，数据伦理政策的制定是首要且不可或缺的一步。这些政策为整个数据处理流程提供了道德和法律的框架，确保了人工智能技术的公平、透明和负责任的使用。

为了确保数据伦理政策的有效实施，需要建立相应的监督机制和违规处理措施。例如，可以设立独立的数据伦理审查委员会，负责监督数据处理活动是否符合伦理准则和政策要求，并对违规行为进行调查和处理。

2)提升透明度和可解释性

透明度和可解释性是人工智能数据伦理的重要方面，它们有助于增强公众对人工智能技术的信任和理解。透明度要求数据处理过程公开、透明，让数据持有者能够了解数据被如何使用、与谁共享以及用于何种目的。

为了实现透明度，我们可以采取向数据持有者提供详细的数据处理说明、建立数据主体访问和更正其数据的机制、公开算法原理和模型结构等多种方式。

可解释性则强调人工智能模型应能够为其决策或预测提供合理的解释。这对于决策性人工智能模型尤为重要，用户需要理解算法是如何得出特定结论的，以便对结果进行评估，提升对模型的信任程度。

为了提高模型的可解释性，我们可以采用简洁明了的模型结构、提供易于理解的模型输出解释以及使用可视化工具展示模型决策过程等。

3)规范数据收集和标注

在人工智能数据处理过程中，数据收集和标注是两个关键环节，它们直接影响到模型的质量和性能。

在数据收集阶段，我们需要确保采集的数据具有代表性、多样性和均衡性，以避免模型在特定群体上的偏见和歧视。此外，我们还需要关注数据来源的合法性和道德性。

在数据标注阶段，我们需要注意避免歧视性的标签和评价。标注人员应接受数据标准相关培训，确保标注人员能够客观、公正地进行标注工作。同时还需要建立标注质量评估和审核机制，对标注结果进行定期检查和纠正，确保数据的准确性和一致性。

4)开展风险评估和缓解措施

在人工智能数据处理过程中，我们需要对可能导致不公正或歧视性结果的风险进行评估，并采取相应的缓解措施。风险评估可以通过对模型性能进行定量分析、对数据处理流程进行审查以及对相关法规和社会期望进行解读等方式来实现。

针对评估结果中暴露出的风险点，我们可以采取多种缓解措施。例如，对于模型偏见问题，我们可以通过增加多样性样本、调整模型参数或使用公平性增强算法来降低偏见程度；对于数据泄露风险，我们可以加强数据加密、访问控制和安全审计等措施来保护数据安全；对于算法决策不透明问题，我们可以采用可解释性强的模型结构或提供模型输出解释来提高透明度。

5)定期审查和更新

随着法规和社会期望的不断变化以及人工智能技术的快速发展，我们需要定期审查和更新数据伦理准则和政策以确保其与时代保持一致。审查过程应包括对现有准则和政策的全面评估对相关法规和社会期望的解读以及对新技术进展的跟踪和分析等。

在审查过程中，如果发现现有准则和政策存在不足或过时之处，应及时进行更新和完善。更新后的准则和政策应重新发布并告知所有相关方以确保其得到有效执行。同时还需要建立持续监督机制来确保更新后的准则和政策得到长期有效的执行和维护。

2. 治理技术

偏差检测和纠正：识别算法中存在的偏见，并通过调整算法参数或重新训练来消除偏见。

反歧视性算法设计：确保算法在处理数据时不会因种族、性别、宗教等因素产生歧视。

责任与可追溯性技术：确保AI系统的决策过程有清晰的记录，出现问题时可以追溯到责任方。

免责申明：
本文系转载，版权归原作者所有，如若侵权请联系我们进行删除！
《数据治理行业实践白皮书》下载地址：https://fs80.cn/4w2atu
《数栈V6.0产品白皮书》下载地址：https://fs80.cn/cw0iw1
想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友，浏览袋鼠云官网：https://www.dtstack.com/?src=bbs
同时，欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」，交流最新开源技术信息，群号码：30537511，项目地址：https://github.com/DTStack