博客 人工智能数据治理:实操与展望

人工智能数据治理:实操与展望

   数栈君   发表于 2024-09-12 11:00  244  0

《面向人工智能的数据治理实践指南(1.0)》共分为(“一、人工智能数据治理概念界定”,“二、面向人工智能数据治理的重点工作”,“三、面向人工智能的数据治理步骤”及“四、展望”)四个章节,本期将对第三章“面向人工智能的数据治理步骤”及第四章“展望”的内容进行介绍。



 面向人工智能的数据治理步骤


当前产业对于人工智能的工程建设工作包括数据收集、数据预处理/清洗、特征工程、数据标注、数据划分、数据增强、模型训练、模型验证与测试、模型推理等九个阶段。


过程上,总体由业务方提出需求后,数据工程师、算法工程师、数据科学家等角色进行分头开发。其总体上缺乏一套科学的方法论将各个团队、人员、角色进行串联,形成“流水线”式的作业。从而往往导致团队间的协作困难、工作效率不高、工作成本不低、责任分工不清、应用效果不及预期等问题。


通过利用DataOps1所强调的加强团队间协作沟通、要求数据流程具有可重复性和可追溯性、重视自动化和持续集成、关注数据集的监控和持续改进、强调数据流程的监控与反馈等特性。能够有效改善这些问题,实现数据流程的自动化、质量管理的持续改进以及合规性、伦理性和隐私保护的强化,从而提高人工智能项目的效率和效果。


以下我们将创新性的提出利用DataOps理念来赋能人工智能模型研发、治理和运营的一体化流程方法,为产业提供一种实践思路,并在今后的报告中不断打磨。


http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/448928b569230c207d358df7644a24a3..png


[1] DataOps:数据研发运营一体化(DataOps)是数据开发的新范式,将敏捷、精益等理念融入数据开发过程,通过对数据相关人员、工具和流程的重新组织,打破协作壁垒,构建集开发、治理、运营于一体的自动化数据流水线,不断提高数据产品交付效率与质量,实现高质量数字化发展。——《DataOps实践指南》







(一)明确应用目标与需求





确定应用目标与效果:首先,与相关方共同明确人工智能应用的目标和预期效果。这可能涉及解决的业务问题、改善的业务流程或实现的业务目标。


明确应用场景:确定人工智能应用的具体场景和应用范围。这包括确定应用的环境、用户和操作方式。


澄清数据需求:与算法方、需求方和数据方共同澄清所需的数据类型、数据数量和数据质量标准。这可能涉及确定需要的数据来源、数据格式、数据标签等。


评估数据获取难度:评估当前已有数据与所需数据的可获取性和使用难度。这包括考虑数据获取的法律、道德和技术限制,以及数据采集和标注的成本和时间。







(二)设计数据集治理要求与规范





制定数据标注流程:制定清晰的数据标注流程,包括数据标注的步骤、标准和质量控制措施。这可能涉及确定标注人员的资质要求、标注工具的选择和标注结果的审核流程。


明确数据质量标准:明确数据质量的衡量标准和评估方法,包括数据准确性、完整性、一致性和可靠性等方面。这可以通过制定数据质量指标和监控机制来实现。


考虑合规和隐私要求:确保数据采集、标注和使用过程符合法律、道德和行业规范的要求,特别是涉及个人隐私和敏感信息的情况下。这可能涉及制定数据保护策略、访问控制机制和数据使用协议。


管理规范持续更新:建立一个持续更新的数据管理规范,确保规范与技术发展和业务需求的变化保持同步。这可能包括定期审查和更新数据管理政策、流程和工具。







(三)开展数据集处理与研发





数据清洗和标注:进行数据清洗、标注和预处理,以确保数据质量和一致性。这可能涉及识别和处理数据中的噪音、缺失值和异常值,以及为数据添加标签和元数据。


特征工程和数据增强:进行特征工程和数据增强,以提取数据的有效特征并增加数据的多样性。这可以通过使用统计方法、机器学习算法和数据增强技术来实现。


沟通与验收:加强算法方与数据方的沟通,确保数据处理过程中的偏差得到及时纠正。这可能包括定期的数据处理进展报告和算法人员的阶段性验收动作。







(四)进行数据集洞察与交付





数据集持续维护:对交付的数据集进行持续维护和更新,确保数据集的及时性和适用性。这可能包括定期的数据质量评估、数据集版本管理和数据集权限管控。


洞察数据集构成与分布:对当前企业内数据集的构成、分布、质量和成本进行洞察,以优化数据集的组织和利用。这可以通过数据集分析和数据集使用情况监控来实现。


版本管理与权限管控:建立数据集的版本管理系统和权限管控机制,确保数据集的一致性和可追溯性。这可能包括对数据集的版本记录、变更审批和访问权限控制等。







(五)持续数据集运营与优化





构建监控指标体系:构建全局的监控指标体系,综合考虑数据集的使用频率、更新频率、质量评价和成本效益等方面。这可以通过建立数据集运营指标和监控仪表板来实现。


持续优化数据集流程:对整个数据集构建周期的流程进行持续优化,提高数据集的效率和效果。这可能包括对数据处理流程的自动化、工作流程的优化和团队协作的改进等方面。



展望






(一)人工智能数据产业分工更加明确





总体来看,产业中存在大量对数据的重复标注、重复采集、重复加工的现象。这无疑是对时间、资金、资源和人才的铺张浪费。


未来,供给人工智能数据集的产业在采集、加工、交易、消费等环节将更加清晰和成熟,通过市场化的调节机制可以合理分配产业的人才、资金与资源,更高效的推进人工智能应用发展。







(二)数据治理或成为大模型的胜负手





当前,产业界普遍通过大力发展大模型产品应用来抢占市场份额。然而,随着市场集中度的提高(马太效应),只有少数企业可能在这场竞争中胜出。通过有效的数据治理,企业将有可能获得竞争优势。







(三)服务化





随着DG4AI技术、实践和理论的成熟,DG4AI将更加标准化与流程化,进而发展为服务化,能够高效、高质量、安全可控的提供标准的数据产品(数据集、语料库)。



【中国信通院相关工作介绍】

面向人工智能的数据治理在理论与实践还处在探索期,目前中国信通院已牵头在中国通信标准化协会、国际电信联盟(ITU)等立项相关行业标准、国际标准,后续还将在技术工具、企业能力建设以及实践方法论等发面持续开展研究、合作与生态建设工作。


面向人工智能的数据治理研究计划

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/bfd2f648b8f8e992907270de6d74975f..png



免责申明:
本文系转载,版权归原作者所有,如若侵权请联系我们进行删除!
《数据治理行业实践白皮书》下载地址:https://fs80.cn/4w2atu
《数栈V6.0产品白皮书》下载地址:https://fs80.cn/cw0iw1
想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs
同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:https://github.com/DTStack

0条评论
下一篇:
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料
钉钉扫码加入技术交流群