大数据画像_数据应用_袋鼠云-袋鼠云丨数栈丨数据中台丨数据治理丨数据可视化丨数据运维

产品与服务

解决方案

客户成功

生态合作

袋鼠开源

资源中心

袋鼠社区

关于袋鼠云

申请试用

新闻动态

了解袋鼠云最新动态

「机器学习」机器学习流程介绍

2020年11月25日|文章来源：-

「机器学习」机器学习流程介绍，文中仅仅对深度学习的步骤做一个简易的叙述，每一个阶段涉及到的物品许多，并不是文中详细介绍的范畴，对在其中较为关键的知识要点略微谈及一下，实际的能够参照别的文章内容学习培训。

「机器学习」机器学习流程介绍，逐渐剖析深度学习的步骤。

1.数据源：

深度学习的第一个流程便是搜集数据，这一步十分关键，由于搜集到的数据的品质和总数将立即决策预测分析模型是不是可以建好。我们可以将搜集的数据去重、规范化、不正确调整这些，储存成数据库文件或是csv格式文档，为下一步数据的载入做准备。

2.剖析：

这一流程主要是数据发觉，例如找到每列的较大、极小值、均值、方差、中位值、三分十位数、四分位数、一些特殊值(例如零值)所占占比或是遍布规律性这些必须有一个大概的掌握。掌握这种最好是的方法便是数据可视化，Google的开放源代码项目facets能够很便捷的完成。另一方面要明确变量(x1…xn)和自变量y，找到自变量和变量的关联性，明确相关系数r。

3.数据预处理：

特点的优劣非常大水平上决策了分类器的实际效果。将上一流程明确的变量开展挑选，挑选能够手工制作挑选或是模型挑选，挑选适合的特点，随后对自变量开展取名便于更强的标识。取名文档存储出来，在预测分析环节的情况下会采用。

4.向量化分析：

向量化分析是对svm算法結果的再生产加工，目地是提高特点的表明工作能力，避免模型过度繁杂和学习障碍，例如对持续的矩阵的特征值开展离散化，label值投射成枚举值，用数字开展标志。这一环节将造成一个很重要的文档：label和枚举值对应关系，在预测分析环节的一样会采用。

5.分拆数据集：

必须将数据分成两一部分。用以训练模型的第一部分将是数据集的绝大多数。第二一部分将用以评估大家训练有辣的模型的主要表现。一般以8:2或是7:3开展数据区划。不可以立即应用训练数据来开展评估，由于模型只有记牢“难题”。

6.训练：

开展模型训练以前，要明确适合的优化算法，例如线性回归、决策树算法、随机森林、逻辑回归、梯度方向提高、SVM这些。挑选优化算法的情况下最好方式是检测各种各样不一样的优化算法，随后根据交叉验证挑选最好是的一个。可是，假如仅仅为难题找寻一个“充足好”的优化算法，或是一个起始点，也是有一些还不错的一般规则的，例如假如训练集不大，那麼高误差/低方差分类器(如朴素贝叶斯分类器)要好于低误差/高方差分类器(如k近邻分类器)，由于后面一种非常容易过拟合。殊不知，伴随着训练集的扩大，低误差/高方差分类器将刚开始获胜(他们具备较低的渐行出现偏差的原因)，由于高误差分类器不能出示精确的模型。

7.评估：

训练进行以后，根据分拆出去的训练的数据来对模型开展评估，根据真正数据和预测分析数据开展比照，来判断模型的优劣。模型评估的普遍的五个方式：混淆矩阵、提高图&洛伦兹图、基尼系数、ks曲线图、roc曲线图。混淆矩阵不可以做为评估模型的唯一标准，混淆矩阵是算模型别的指标值的基本。

混淆矩阵

预测分析数据

真正数据

备注名称：X1为做出恰当分辨的否认纪录

X2为做出错误行为的毫无疑问纪录

X3为做出错误行为的否认纪录

X4为做出恰当分辨的毫无疑问纪录

能够根据下列三个指标值来评估模型的优劣：

准确度：P=X4/(X2+X4)

均方误差：R=X4/(X3+X4)