数据学习
登录
注册
原创博客
期刊会议
学术世界
期刊出版社
领域期刊
SCI/SCIE/SSCI/EI简介
期刊列表
会议列表
所有期刊分区
学术期刊信息检索
JCR期刊分区查询
CiteScore期刊分区查询
中科院期刊分区查询
领域期刊分区
管理 - UTD24期刊列表
管理 - AJG(ABS)期刊星级查询
管理 - FMS推荐期刊列表
计算机 - CCF推荐期刊会议列表
高校期刊分区
南大核心(CSSCI)
合工大小核心
合工大大核心
AI资源仓库
AI领域与任务
AI研究机构
AI学术期刊
AI论文快讯
AI数据集
AI开源工具
AI模型
AI模型概览图
AI模型月报
AI基础大模型
AI预训练大模型
数据推荐
网址导航
我的网址导航
程序员必备网站
机器学习(人工智能)在工业中应用步骤入门
标签:
#人工智能#
#机器学习#
时间:2018/11/20 11:37:04
作者:小木
机器学习是实现人工智能最重要的方法之一,包括深度学习等都属于机器学习中的一种方法。因此,机器学习的应用被认为是实现人工智能应用的重要途径。人工智能的应用目标是使用计算机(机器)来代替或者辅助人工来完成某项任务。 机器学习完成的任务有限,并不是所有的任务的都适合使用机器学习来完成。机器学习可以完成的任务包括: 1、分类:如判断某个信用卡付款是否合法 2、聚类:根据用户的消费行为将客户划分成几类 3、推荐:为用户做个性化的商品推荐 4、预测:基于时序数据对未来进行预测 但并不是所有的任务目前都适合用机器学习(包括深度学习)来解决。例如同声传译、自动驾驶等,在实际的应用中有很多问题。因此,机器学习在解决业务问题的应用需要谨慎考虑。也有一些步骤可以参考。 #### 一、理解业务问题 在应用机器学习技术之前,首先要理解业务目标,确保机器学习是合适的工具。一般情况下,现实中的已有的业务都有一套自有的逻辑来支撑,清楚明白的理解业务的运行逻辑和业务目标是至关重要的。这对正确使用机器学习有着至关重要的作用。同时,已有的正确的业务目标将是机器学习解决问题的目标。这一点必须要明确。 #### 二、整合领域知识 机器学习并不是可以替代一切的神器,领域专家的知识不仅在传统业务中很重要,对于帮助机器学习解决问题也很重要。例如,预测企业拒绝一个人的求职问题中,求职者的种族是非常重要的特征,加入这个特诊会使得机器学习提高预测的准确率。原因在于企业会经常拒绝有犯罪记录的人的求职意向,在美国不允许企业查询犯罪记录之后,大多数企业会默认大部分黑人都有犯罪记录。 #### 三、将业务问题转换成数学形式 在明确了业务问题和业务目标之后,需要将业务问题转换成机器学习解决的问题,如分类、预测等。机器学习本质是数学和统计的方法,其建模过程是将现实中的业务问题转换成数学模型的过程。这时候需要明确了解业务的目标、输入的参数、限制条件、评价标准。 #### 四、确保解决问题的数据符合要求 机器学习的应用依赖于数据的输入,数据是构造机器学习输入特征的基础。在机器学习领域中,
数据和特征决定了机器学习能力的上限
,意思就是指数据对于模型是否能取得足够好的表现有着直接的影响,再好的模型,缺乏数据也无法达成目标。对于有监督的任务来说,不仅需要一定质量的数据,还需要
有标注的数据
作为训练集。例如欺诈检测的问题,需要我们有一定数量的关于真实的欺诈者的数据,这些有标注的数据是必不可少的。>有标注的数据作为训练集。例如欺诈检测的问题,需要我们有一定数量的关于真实的欺诈者的数据,这些有标注的数据是必不可少的。因此,在解决问题前需要收集数据,以达到训练模型的目标。 数据的选择非常重要,对最终结果的表现有决定作用。比如腾讯搜搜最早选择训练搜索引擎的数据来自于人民日报等正规媒体数据,但是用户的输入通常都是口语化的内容,这种选择导致了早期搜搜的搜索结果问题很大。 #### 五、选择机器学习的模型 机器学习是一类技术方法,针对不同的问题有很多可选的模型来解决。
不同的模型能力不同,在不同场景下的表现也不一样,对于数据的要求也不同,输入的参数也不一样
。基于已有的数据情况和业务逻辑,选择合适的机器学习模型是一个必要的步骤。 模型的选择就是指从一类模型中选择较好的一类。这种通常需要实际测试得到,工业届也有一些一般性结论,但是这些结论只能当做选择的指导,划定候选算法的范围,并不能直接确定模型。 #### 六、调教模型 大多数机器学习的模型和算法都不是确定性算法,需要数据对模型进行训练,并在多个不同的评价中选择合适的参数,调教模型一般也包括两个含义:一是选择合适的特征;三是选择合适的参数; 特征的构造本身就是一项任务,称之为特征工程,不同的模型需要的特征类型不同,需要做一定转化。同时,某些特征需要人们根据已有的专家领域知识来构建。 参数是指模型的设定,一般包括两类,一类是超参数,无法通过数据训练,需要预先指定(并不完全这样)。另一种是模型的自有参数,通过数据训练得到。在某些统计机器学习算法中,超参数的选择在数据量少的时候至关重要,它的选择而影响算法的效果。在数据量大的时候影响不明显。但对于像深度学习这样的算法来说,其层数和神经元数量以及连接方式都对算法的表现影响很大,但这种参数也无法训练出来,需要人工设定,通过算法训练选择合适的结果。对于非超参数来说,一般提供足够的数据,经过训练之后能得到一个理想的解。 #### 七、线上部署和测试 在经过上述训练和选择得到理想的模型之后需要经过线上测试再继续调整。算法的线下训练结果并不代表实际的运行情况。在线测试是测试模型效果最真实的,也是最准确的方法。线上部署的算法也需要观察其表现,并进行周期性训练。以更新模型参数,保证模型表现良好。
欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
相关博客
最热博客