您还未登录! 登录 | 注册 | 帮助  

您的位置: 首页 > 业务知识 > 正文

如何培训、测试和维护人工智能和机器学习模型

发表于:2021-10-29 作者:Steven Kursh 来源:企业网D1Net

为了深入了解创建人工智能和机器学习模型所需的技能集,需要了解模型创建过程,这是由机器学习软件逐步学习完成的,以及生成符合预定义成功标准的模型所面临的挑战。

机器学习软件使用数据来训练一个模型,这个模型构成了人工智能产品,可以通过定期更新人工智能输入数据在一段时间内重复使用。机器学习软件有四种基本的学习类型:

  • 监督:包括让算法学习数据,同时使用数据上的标签提供正确答案。这本质上意味着要预测的类或值从一开始就是已知的,并且对算法进行了很好的定义。
  • 无监督:与有监督的方法不同,算法并不提供正确答案或任何答案,由算法自行决定是否收集相似的数据并加以理解。
  • 半监督学习:监督和非监督学习的混合。
  • 强化:在强化学习中,每一次正确的预测都会给予算法奖励,从而提高准确率。

需要数据科学专业知识来确定机器学习软件中用于拟合特定数据集的最佳统计算法。

在众多的统计算法中,比较流行的有:用于情感分析、垃圾邮件检测和推荐的朴素贝叶斯算法;用于结果预测的决策树;可以合并多个决策树来改进预测的随机森林;用于二元分类(A或B)逻辑回归;AdaBoost、Gaussian Mixed、Recommender和K-Means聚类将数据重新组织,如市场细分。

训练人工智能和机器学习模型

机器学习有三个不同的学习(也称为训练)阶段:训练、验证和测试。在开始之前,必须确保数据组织良好且无误。尽管这一概念很简单,但将数据转换为有序性可能是一个耗时且面向细节的过程,可能需要人工处理。

其目标是数据不存在重复、拼写错误和断开连接。在清理之后,数据被随机分成三组,分别用于三个训练阶段。随机数据划分的目的是阻止选择数据偏差。

以下是一些与模型创建相关的定义:

  • 参数。模型参数是机器学习软件在训练过程中从人工智能输入数据自动学习的值,尽管用户可以在训练过程中人工更改参数值。例如,会话期间要进行的最大通过次数和训练数据的最大模型大小(以字节为单位)。
  • 超参数。超参数位于机器学习外部,由数据科学家用户预先输入,因此超参数不是从人工智能数据中派生出来的,可以在训练过程中更改。超参数的例子包括使用聚类算法时返回的簇数和神经网络中的层数。
  • 变量。机器学习软件会选择特定的人工智能数据输入字段,并在训练过程中使用额外的变量。其变量可以是年龄、身高和体重。

在开始训练(第一阶段)之前,给数据添加标签是很重要的,这样机器学习软件就可以继续从数据中获取重要的线索,以帮助它学习。无监督学习不需要添加标签。机器学习软件的默认参数值也可以用来启动或参数可以单独更改。

准确性测试模型

当训练阶段满足成功标准时,就进入了验证阶段。第一遍使用一组新的数据。如果结果良好,就进入最后的测试阶段。

如果没有得到理想的结果,则可以让机器学习软件对数据进行额外的传递,直到机器学习软件没有显示新的模式或达到最大的传递次数。随着训练的推进,这些参数由机器学习软件或管理它的人员自动修改。

测试阶段是针对一组新数据的“期末考试”——但这一次缺少“辅助”数据标签(仅用于监督学习)。如果软件通过了成功的标准测试,它就是一个工作模型。如果没有,那就继续训练。和以前一样,测试团队可以人工修改参数,或者让机器学习软件在训练过程中自动修改参数。

人工智能的机器学习是机器学习软件暴露数据的重复回放,参数由机器学习软件自动迭代改变(可能由人工修改),以使模型在每次经过测试之后更智能。机器学习软件继续对数据进行多次遍历,直到意识到没有检测到新的模式,或者直到它达到最大遍历次数,从而使其停止。

人工智能模型的持续维护

保持警惕(监控)是享受人工智能自由的代价。要确定人工智能模型的表现如何,一个典型的方法是监测实际表现与人工智能预测的匹配程度。如果人工智能预测表现不佳,就应该重新进入机器学习模型训练过程,使用最新的数据修正模型。

需要记住的是,输入的数据很容易随时间而改变,这就是交易中的数据漂移。数据漂移可能会导致人工智能模型的准确性下降,因此早期数据漂移预警对于保持问题的领先至关重要。人工智能工具可以跟踪数据漂移并找到离群数据,如Fiddler、Neptune和Azure ML,这些工具可以提供早期预警,因此数据问题可以通过机器学习的更新尽早解决。