Deep Neural Networks and Tabular Data: A Survey——XGBoost依然是最优秀的算法模型

标签:#论文快讯# 时间:2022/03/31 12:15:19 作者:小木

XGBoost依然是最优秀的!深度学习在CV、NLP和Text的处理已经被证明非常优秀,但是这都是同质数据(homogenous),而传统异质(heterogeneous)表格数据,在推荐系统、点击率预估、异常检测等中非常普遍,但是这样的数据相比前面,其特征之间语义关系更弱,这篇论文对现有流行的机器学习类的方法(包括梯度生成树类、线性回归、决策树等)和深度学习方法在传统的数据的应用做了综述分析,发现XGBoost在训练时间和准确性的综合对比中都是最优的。

尽管深度学习方法训练时间长,准确性优于回归模型,但是还是比不上XGBoost这种方法。这篇综述建议大家可以好好阅读一下。

异质表格数据是最常用的数据形式,对于众多关键和计算要求高的应用来说是必不可少的。在同质数据集上,深度神经网络已多次显示出优异的性能,因此被广泛采用。然而,它们在表格数据建模(推理或生成)方面的应用仍然具有高度挑战性。这项工作为表格数据的深度学习方法的现状提供了一个概述。我们首先将它们分为三组:数据转换、专门的架构和正则化模型。然后我们对每组的主要方法进行了全面的概述。对生成表格数据的深度学习方法的讨论,由解释表格数据上的深度模型的策略来补充。我们的主要贡献是解决这一领域的主要研究流和现有方法,同时强调相关的挑战和开放的研究问题。我们还提供了一个传统机器学习方法与深度学习方法在不同规模和不同学习目标的真实表格数据集上的经验比较。我们的结果表明,基于梯度增强树群的算法仍然优于深度学习模型。据我们所知,这是第一次对表格数据的深度学习方法进行深入研究。这项工作可以作为对表格数据的深度学习感兴趣的研究人员和从业人员的一个有价值的起点和指南。

arxiv地址:https://arxiv.org/abs/2110.01889

欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
Back to Top