袋鼠云数据解决方案专家。拥有10余年IT行业开发和管理等企业服务经验,精通大型项目的开发和管理,曾就职于英特尔、索尼等世界500强企业,参与过英特尔,索尼,三星,华为等公司的大型项目的开发和咨询工作。近几年主攻大数据方向,包括数据中台建设、大数据治理、工业领域的数据应用等项目开发和实施。
一般情况下,企业都有多套的业务系统,一些大型企业甚至会有上百套的业务系统。这些业务在不同时期由不同的团队开发完成。因此,这些业务系统都参考着不同的标准生产各自数据。由于滥用缩写词,惯用语,数据输入错误,重复记录,丢失值,拼写变化,不同的计量单位,大量应用系统产生的大量数据是脏数据。这些脏数据是没有意义的,根本就不可能为以后的数据挖掘决策分析提供任何支持。这就是数据质量问题的由来。
一般来说数据质量问题有四个因素造成:
一、信息因素
产生这部分数据质量问题的原因主要有:元数据描述及理解错
误、数据度量的各种性质(如:数据源规格不统—)得不到保证
和变化频度不怡当等。
二、管理因素
是指由于人员素质及管理机制方面的原因造成的数据质量问题。
如人员培训,人员管理,培训或者奖惩措施不当导致的管理缺失
或者管理缺陷。
三、技术因素
主要是指由于具体数据处理的各技术环节异常造成的数据质量问
题。数据质量问题的产生环节主要包括数据创建、数据获取,数据传输.数据装载.数据使用.数据維护等方面的內容。
四、流程因素
是指由于系统作业流程和人工操作流程设置不当而造成的数据质
量问题,主要来源于系统数据的创建流程,传递流程、装载流程、使用流程维护流程和稽核流桯等各环节
从上述的四因素来说,管理因素和流程因素属于组织管理范畴,信息因素和技术因素属于技术范畴。所以,要改进数据质量问题,要从组织管理和技术两方面入手,才能从根本上,最佳地解决数据质量问题。
袋鼠云作为一家企业数据整体解决方案提供商,有一套完整的企业数据解决方案,尤其在数据治理方面,不仅提供数据质量治理的咨询服务,也提供相应的数据质量治理的产品,数栈。