机器学习(人工智能)在工业中应用步骤入门
机器学习是实现人工智能最重要的方法之一,包括深度学习等都属于机器学习中的一种方法。因此,机器学习的应用被认为是实现人工智能应用的重要途径。人工智能的应用目标是使用计算机(机器)来代替或者辅助人工来完成某项任务。
机器学习完成的任务有限,并不是所有的任务的都适合使用机器学习来完成。机器学习可以完成的任务包括:
1、分类:如判断某个信用卡付款是否合法 2、聚类:根据用户的消费行为将客户划分成几类 3、推荐:为用户做个性化的商品推荐 4、预测:基于时序数据对未来进行预测
但并不是所有的任务目前都适合用机器学习(包括深度学习)来解决。例如同声传译、自动驾驶等,在实际的应用中有很多问题。因此,机器学习在解决业务问题的应用需要谨慎考虑。也有一些步骤可以参考。
一、理解业务问题
在应用机器学习技术之前,首先要理解业务目标,确保机器学习是合适的工具。一般情况下,现实中的已有的业务都有一套自有的逻辑来支撑,清楚明白的理解业务的运行逻辑和业务目标是至关重要的。这对正确使用机器学习有着至关重要的作用。同时,已有的正确的业务目标将是机器学习解决问题的目标。这一点必须要明确。
二、整合领域知识
机器学习并不是可以替代一切的神器,领域专家的知识不仅在传统业务中很重要,对于帮助机器学习解决问题也很重要。例如,预测企业拒绝一个人的求职问题中,求职者的种族是非常重要的特征,加入这个特诊会使得机器学习提高预测的准确率。原因在于企业会经常拒绝有犯罪记录的人的求职意向,在美国不允许企业查询犯罪记录之后,大多数企业会默认大部分黑人都有犯罪记录。
三、将业务问题转换成数学形式
在明确了业务问题和业务目标之后,需要将业务问题转换成机器学习解决的问题,如分类、预测等。机器学习本质是数学和统计的方法,其建模过程是将现实中的业务问题转换成数学模型的过程。这时候需要明确了解业务的目标、输入的参数、限制条件、评价标准。
四、确保解决问题的数据符合要求
机器学习的应用依赖于数据的输入,数据是构造机器学习输入特征的基础。在机器学习领域中,数据和特征决定了机器学习能力的上限,意思就是指数据对于模型是否能取得足够好的表现有着直接的影响,再好的模型,缺乏数据也无法达成目标。对于有监督的任务来说,不仅需要一定质量的数据,还需要有标注的数据作为训练集。例如欺诈检测的问题,需要我们有一定数量的关于真实的欺诈者的数据,这些有标注的数据是必不可少的。>有标注的数据作为训练集。例如欺诈检测的问题,需要我们有一定数量的关于真实的欺诈者的数据,这些有标注的数据是必不可少的。因此,在解决问题前需要收集数据,以达到训练模型的目标。
数据的选择非常重要,对最终结果的表现有决定作用。比如腾讯搜搜最早选择训练搜索引擎的数据来自于人民日报等正规媒体数据,但是用户的输入通常都是口语化的内容,这种选择导致了早期搜搜的搜索结果问题很大。
