「机器学习」机器学习中的五个具体难题以及对业务流程的危害-袋鼠云丨数栈丨数据中台丨数据治理丨数据可视化丨数据运维

新闻动态

了解袋鼠云最新动态

「机器学习」机器学习中的五个具体难题以及对业务流程的危害

2020年12月8日|文章来源：-

「机器学习」机器学习中的五个具体难题以及对业务流程的危害，现如今，许多企业必须迅速解决很多数据。此外，市场需求布局已经快速发展趋势转变，因而企业可以迅速做出决策尤为重要。

如同商业经营管理畅销书籍《快鱼吃慢鱼》的创作者JasonJennings和LaurenceHaughton常说的那般：“现如今的市场需求并不是大鱼吃小鱼3，只是快鱼吃慢鱼。”

「机器学习」机器学习中的五个具体难题以及对业务流程的危害，企业的业务流程取得成功取决于选用更强的信息内容迅速做出管理决策，机器学习在这其中起着关键功效。不管企业是尝试向顾客提意见改善其生产制造步骤，還是预测分析销售市场转变，机器学习都能够根据解决很多数据来提供协助，进而在企业寻找核心竞争力时能够更好地为其提供适用。

殊不知，虽然机器学习提供了极大的机遇，但依然存有一些挑戰。机器学习系统软件依靠很多数据及其实行繁杂测算的工作能力，因为顾客期待值产生变化或出现意外的销售市场起伏等外界要素，这代表着企业必须监管和维护保养机器学习模型。

「机器学习」机器学习中的五个具体难题以及对业务流程的危害，除此之外，在机器学习中也有一些具体难题必须处理。下列将讨论和科学研究五个重要的具体难题以及对业务流程的危害。

1.数据品质

机器学习系统软件的运用必须很多数据。这种数据可大概分成两大类：特点和标识。

特点是机器学习模型的数据键入。这种数据能够是来源于感应器、客户调查表、网址cookie或历史时间信息内容的数据。

这种特性的結果是可变性的。比如，顾客很有可能沒有恰当填好或是不填好问卷调查;感应器很有可能会出現常见故障并传送不正确的数据;网址cookie很有可能会提供有关客户在网址上具体步骤的不详细信息内容。因而数据集的品质是很重要的，那样才可以恰当地训炼模型。

数据也很有可能填满无用信息，这很有可能会欺诈机器学习模型做出不正确的预测分析。

机器学习模型的輸出是标识。标识的稀少性也是一个难题，在稀少的标识中，客户很有可能了解系统软件的键入，但不确定性輸出是啥。在这类状况下，检验模型的特点和标识中间的关联很有可能具有趣味性。这可能是劳动密集的工作中，由于这必须人为因素干涉来将标识与键入关系起來。

要是没有键入到輸出的精确投射，那麼模型很有可能没法学习培训键入和輸出中间的恰当关联。机器学习取决于键入和輸出数据中间的关联来建立可用以做出预测分析，并为将来行動提供提议的归纳。当键入的数据错乱、不详细或产生不正确时，难以了解出現特殊的輸出或标识的缘故。

2.多元性和品质中间的衡量

创建强劲的机器学习模型必须很多的云计算服务器来解决特点和标识。编号繁杂的模型必须数据生物学家和前端工程师投入极大的勤奋。繁杂的模型很有可能必须很多的数学计算才可以实行，而且很有可能必须更长的時间才可以得到能用的結果。

这对企业而言是一种衡量。她们能够挑选做出迅速的反映，但精确性很有可能较低。或是她们能够接纳比较慢的回应，但能够从模型中得到更精确的結果。殊不知开展让步并不是什么错事，由于是不是应以更快的回应得到高些的成本费和更精确的模型的决策在于测试用例。

比如，向零售网购网站上的消费者提意见必须即时回应，但其結果很有可能会难以预料。另一方面，股票买卖交易系统软件必须更靠谱的結果。因而，当不用即时得到結果时，应用大量数据并实行大量测算的模型很有可能会提供更强的結果。

伴随着机器学习即服务项目(MLaaS)商品进到销售市场，衡量的多元性和品质将获得大量关心。芝加哥大学的科学研究工作人员科学研究了机器学习即服务项目(MLaaS)的实效性，发觉假如她们对支持向量机和数据预处理等重要管理决策有充足的掌握，她们能够获得与单独支持向量机非常的結果。

3.数据中的取样误差

很多企业选用机器学习优化算法为招聘人才提供协助。比如，亚马逊平台发觉她们用于协助企业选择应聘者的优化算法是有成见的。除此之外，普林斯顿大学的科学研究工作人员发觉，来源于欧州的求职者将遭受一些人工智能技术系统软件的亲睐，表明其优化算法导入了一些人们的成见。

这儿的难题并不是实际的模型难题，只是用以训炼模型的数据有其本身的误差。殊不知，当大家了解数据是有误差的，能够选用一些方式来清除误差或降低该数据的权重值。

第一个挑戰是明确数据中是不是存有原有误差。这代表着要开展一些预备处理。虽然很有可能没法清除数据中的全部误差，但能够根据人工控制使其危害降到最低。

在一些状况下，很有可能必须限定数据中的特点总数。比如，忽视人种或性別等特点能够协助限定有成见的数据对模型結果的危害。

4.持续转变的期待和定义飘移

机器学习模型在特殊的情景中运作。比如，为零售商的强烈推荐模块提供适用的机器学习模型在顾客查询特殊商品时的特殊時间运作。可是，客户满意度会伴随着時间而转变，这代表着机器学习模型很有可能会偏移其设计方案要交货的內容。

模型很有可能会因为多种多样缘故而衰减系数。将新数据导入模型时，很有可能会产生飘移。这就是说白了的数据飘移。当大家对数据的表述产生变化时，也会产生这类状况。它是定义上的飘移。

为了更好地融入这类飘移，企业必须一个模型，该模型能够应用传到的数据不断创新，改善本身。这代表着企业必须持续查验模型。

这必须搜集很多特点和标识，并对变更做出反映，便于能够升级和再次训炼模型。尽管再学习培训的一些层面能够全自动开展，但必须一些人为因素干涉。大家务必了解到，机器学习专用工具的布署并不是一次性的主题活动。

除此之外，企业选用机器学习专用工具必须定期维护和升级，以维持关联性并再次提供使用价值。

5.监管与维护保养

建立模型非常容易而且能够完成自动化技术。可是，维护保养和升级模型必须方案和資源。

机器学习模型是以用以训炼模型的特点刚开始的管路的一部分。随后是模型自身，它是一个必须持续改动和升级的手机软件。该模型必须标识，便于键入的結果能够被模型鉴别和应用。模型和系统软件中的最后数据信号中间很有可能存有错位。

在很多状况下，假如交货的結果意想不到，要不是机器学习出現难题，那麼可能是供应链管理中的别的一部分出現了难题。比如，强烈推荐模块很有可能早已向顾客提供了商品，可是有时候销售管理系统和强烈推荐中间的联接很有可能会断掉，而且必须花销一定時间搜索不正确。在这类状况下，难以告知模型强烈推荐是不是取得成功。对该类难题开展常见故障清除很有可能非常消耗人力资源。

机器学习技术性为企业产生了极大的益处。预知未来結果以危害顾客个人行为并适用业务流程经营的工作能力十分强劲。可是，选用机器学习也给企业产生了挑戰。企业根据了解到这种挑戰并制订解决方法，能够保证她们准备好并有工作能力解决这种挑戰，并灵活运用机器学习技术性。

上一篇：「用户画像」什么是用户画像?

下一篇：《数据治理行业实践白皮书》正式发布，开辟数据治理新范式（附下载）