近年来,各类复杂数据不断累积,数据库在向人们提供大量信息的同时,也表现出大量信息特征。我们处在信息大爆炸的这个年代,常常被淹没在海量数据中。
数据挖掘技术在此背景下应运而生,成为人们利用数据的“利器”,数据挖掘是什么?数据挖掘过程如何?其应用场景又在哪?小编带你一文读懂~
什么是数据挖掘?
数据挖掘的过程
数据挖掘标准流程,包括业务理解、数据理解、数据准备、数据建模、模型评估与部署6个阶段。
第1阶段:业务理解,主要任务是深刻理解业务需求,在需求的基础上制定数据挖掘的目标和实现目标的计划。
第2阶段:数据理解,主要收集数据、熟悉数据、识别数据的质量问题,并探索引起兴趣的子集。
第3阶段:数据准备,从收集来的数据集中选择必要的属性(因素),并按关联关系将它们连接成一个数据集,然后进行数据清洗,即空值和异常值处理、离群值剔除和数据标准化等。
第4阶段:数据建模,选择应用不同的数据挖掘技术,并确定模型最佳的参数。如果初步分析发现模型的效果不太满意,要再跳回数据准备阶段,甚至数据理解阶段。
第5阶段:模型评估,对建立的模型进行可靠性评估和合理性解释,未经过评估的模型不能直接去应用。彻底地评估模型,检查构造模型的步骤,确保模型可以完成业务目标。如果评估结果没有达到预想的业务目标,要再跳回业务理解阶段。
第6阶段:部署阶段,根据评估后认为合理的模型,制定将其应用于实际工作的策略,形成应用部署报告。
典型的知识发现过程
数据挖掘的应用场景
1.在金融领域中的应用
数据挖掘技术在金融领域中已有一定的基础,主要是对金融市场中的特定对象演变和发展趋势进行分析,并根据分析结果进行相应预防,从而实现信用评估和预防诈骗,同时在投资上也应用在对股票的分析,以满足客户稳健投资的要求。随着互联网技术的大力发展,网络金融借贷业务得到了迅猛发展,为人们金融业务办理提供了新选择。
3.在医学领域的应用
在医学分析的领域,病人的病例可以通过记录他的门诊就诊次数和假期的季节来分析。它还有助于确定对各种疾病,成功进行药物治疗的模式。
研究人员也正在使用多维数据来降低成本,提高提供的服务质量,并提供更广泛和更好的护理。
本文系转载,版权归原作者所有,
转载自公众号 杭州市数据资源局 ,如若侵权请联系我们进行删除!
想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:
同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:https://github.com/DTStack