DataLearner 标志DataLearnerAI
AI技术博客
大模型评测排行
大模型评测基准
AI大模型大全
AI资源仓库
AI工具导航

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
  1. 首页/
  2. 博客列表/
  3. 博客详情

机器学习(人工智能)在工业中应用步骤入门

2018/11/20 11:37:04
3,766 阅读
人工智能机器学习

机器学习是实现人工智能最重要的方法之一,包括深度学习等都属于机器学习中的一种方法。因此,机器学习的应用被认为是实现人工智能应用的重要途径。人工智能的应用目标是使用计算机(机器)来代替或者辅助人工来完成某项任务。

机器学习完成的任务有限,并不是所有的任务的都适合使用机器学习来完成。机器学习可以完成的任务包括:

1、分类:如判断某个信用卡付款是否合法 2、聚类:根据用户的消费行为将客户划分成几类 3、推荐:为用户做个性化的商品推荐 4、预测:基于时序数据对未来进行预测

但并不是所有的任务目前都适合用机器学习(包括深度学习)来解决。例如同声传译、自动驾驶等,在实际的应用中有很多问题。因此,机器学习在解决业务问题的应用需要谨慎考虑。也有一些步骤可以参考。

一、理解业务问题

在应用机器学习技术之前,首先要理解业务目标,确保机器学习是合适的工具。一般情况下,现实中的已有的业务都有一套自有的逻辑来支撑,清楚明白的理解业务的运行逻辑和业务目标是至关重要的。这对正确使用机器学习有着至关重要的作用。同时,已有的正确的业务目标将是机器学习解决问题的目标。这一点必须要明确。

二、整合领域知识

机器学习并不是可以替代一切的神器,领域专家的知识不仅在传统业务中很重要,对于帮助机器学习解决问题也很重要。例如,预测企业拒绝一个人的求职问题中,求职者的种族是非常重要的特征,加入这个特诊会使得机器学习提高预测的准确率。原因在于企业会经常拒绝有犯罪记录的人的求职意向,在美国不允许企业查询犯罪记录之后,大多数企业会默认大部分黑人都有犯罪记录。

三、将业务问题转换成数学形式

在明确了业务问题和业务目标之后,需要将业务问题转换成机器学习解决的问题,如分类、预测等。机器学习本质是数学和统计的方法,其建模过程是将现实中的业务问题转换成数学模型的过程。这时候需要明确了解业务的目标、输入的参数、限制条件、评价标准。

四、确保解决问题的数据符合要求

机器学习的应用依赖于数据的输入,数据是构造机器学习输入特征的基础。在机器学习领域中,数据和特征决定了机器学习能力的上限,意思就是指数据对于模型是否能取得足够好的表现有着直接的影响,再好的模型,缺乏数据也无法达成目标。对于有监督的任务来说,不仅需要一定质量的数据,还需要有标注的数据作为训练集。例如欺诈检测的问题,需要我们有一定数量的关于真实的欺诈者的数据,这些有标注的数据是必不可少的。>有标注的数据作为训练集。例如欺诈检测的问题,需要我们有一定数量的关于真实的欺诈者的数据,这些有标注的数据是必不可少的。因此,在解决问题前需要收集数据,以达到训练模型的目标。

数据的选择非常重要,对最终结果的表现有决定作用。比如腾讯搜搜最早选择训练搜索引擎的数据来自于人民日报等正规媒体数据,但是用户的输入通常都是口语化的内容,这种选择导致了早期搜搜的搜索结果问题很大。

五、选择机器学习的模型

机器学习是一类技术方法,针对不同的问题有很多可选的模型来解决。不同的模型能力不同,在不同场景下的表现也不一样,对于数据的要求也不同,输入的参数也不一样。基于已有的数据情况和业务逻辑,选择合适的机器学习模型是一个必要的步骤。

模型的选择就是指从一类模型中选择较好的一类。这种通常需要实际测试得到,工业届也有一些一般性结论,但是这些结论只能当做选择的指导,划定候选算法的范围,并不能直接确定模型。

六、调教模型

大多数机器学习的模型和算法都不是确定性算法,需要数据对模型进行训练,并在多个不同的评价中选择合适的参数,调教模型一般也包括两个含义:一是选择合适的特征;三是选择合适的参数;

特征的构造本身就是一项任务,称之为特征工程,不同的模型需要的特征类型不同,需要做一定转化。同时,某些特征需要人们根据已有的专家领域知识来构建。

参数是指模型的设定,一般包括两类,一类是超参数,无法通过数据训练,需要预先指定(并不完全这样)。另一种是模型的自有参数,通过数据训练得到。在某些统计机器学习算法中,超参数的选择在数据量少的时候至关重要,它的选择而影响算法的效果。在数据量大的时候影响不明显。但对于像深度学习这样的算法来说,其层数和神经元数量以及连接方式都对算法的表现影响很大,但这种参数也无法训练出来,需要人工设定,通过算法训练选择合适的结果。对于非超参数来说,一般提供足够的数据,经过训练之后能得到一个理想的解。

七、线上部署和测试

在经过上述训练和选择得到理想的模型之后需要经过线上测试再继续调整。算法的线下训练结果并不代表实际的运行情况。在线测试是测试模型效果最真实的,也是最准确的方法。线上部署的算法也需要观察其表现,并进行周期性训练。以更新模型参数,保证模型表现良好。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码
返回博客列表

相关博客

  • 2022年全球最大的10家数据处理相关的创业公司
  • 斯坦福2022年度AI指数报告简介及下载链接
  • 内容生成方向的人工智能企业
  • 吴恩达的LandingAI究竟是一家什么样的创业公司
  • 人工智能初创企业Hugging Face是什么样的企业——HuggingFace简介
  • 构建人工智能应用的开发者指南
  • 工业蒸汽量预测-特征工程
  • 一张图看全深度学习中下层软硬件体系结构

热门博客

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8H5文件简介和使用