Deep Neural Networks and Tabular Data: A Survey——XGBoost依然是最优秀的算法模型
时间:2022-07-01 21:33:37.478
论文名:Deep Neural Networks and Tabular Data: A Survey
发布时间:2021年10月
论文地址:https://arxiv.org/abs/2110.01889
代码地址:
原文摘要:异质表格数据是最常用的数据形式,对于众多关键和计算要求高的应用来说是必不可少的。在同质数据集上,深度神经网络已多次显示出优异的性能,因此被广泛采用。然而,它们适应表格数据的推理或数据生成任务仍然具有挑战性。为了促进该领域的进一步发展,这项工作对最先进的表格数据深度学习方法进行了概述。我们将这些方法分为三组:数据转换、专业架构和正则化模型。对于这三组中的每一组,我们的工作提供了主要方法的全面概述。此外,我们还讨论了生成表格数据的深度学习方法,并且我们还对解释表格数据上的深度模型的策略进行了概述。因此,我们的第一个贡献是解决上述领域的主要研究流和现有方法,同时强调相关的挑战和开放的研究问题。我们的第二个贡献是提供了一个传统机器学习方法与11种深度学习方法的实证比较,这些方法跨越了5个不同大小和不同学习目标的流行的真实世界表格数据集。我们将这些结果作为竞争基准公开发表,表明基于梯度增强树群的算法在监督学习任务上仍然大多优于深度学习模型,这表明针对表格数据的竞争性深度学习模型的研究进展正在停滞。据我们所知,这是对表格数据深度学习方法的第一次深入概述;因此,这项工作可以作为一个有价值的起点,指导对表格数据深度学习感兴趣的研究人员和从业人员。