回归分析方法之岭回归(Ridge Regression)

标签:#回归分析##统计# 时间:2018/09/21 09:30:01 作者:小木

岭回归(Ridge Regression)是回归方法 的一种,属于统计方法。在机器学习中也称作权重衰减。也有人称之为Tikhonov正则化。

岭回归主要解决的问题是两种:一是当预测变量的数量超过观测变量的数量的时候(预测变量相当于特征,观测变量相当于标签),二是数据集之间具有多重共线性,即预测变量之间具有相关性。

一般的,回归分析的(矩阵)形式如下:

y = \sum_{j=1}^{p}\beta_j x_j + \beta_0

其中,x是预测变量,y是观测变量,\beta_j\beta_0是待求的参数。而\beta_0可以理解成偏差(Bias)。

一般情况下,使用最小二乘法求解上述回归问题的目标是最小化如下的式子:

\hat{\beta} = \text{argmin}_{\beta} \sum_{i=1}^N (y_i-\beta_0-\sum_{j=1}^p\beta_j x_i)^2

这里的{1,\cdots,N}是训练集中的样本。

那么,岭回归就是要在上述最小化目标中加上一个惩罚项\lambda\sum_{j=1}^p \beta_j^2:

\hat{\beta}^{\text{bridge}} = \text{argmin}_{\beta} \{\sum_{i=1}^N (y_i-\beta_0-\sum_{j=1}^p\beta_j x_i)^2 + \lambda\sum_{j=1}^p \beta_j^2 \}

这里的\lambda也是待求参数。也就是说,岭回归是带二范数惩罚的最小二乘回归。岭回归的这种估计目标叫做收缩估计器(shrinkage estimator)。

传统的回归分析我们需要使用t检验来确定预测变量是否显著,如果不显著则剔除该预测变量,然后继续回归,如此往复得到最终结果。而岭回归不需要这样,只要它的系数\beta能向0“收缩”即可减小该变量对最终的影响。

欢迎大家关注DataLearner官方微信,接受最新的AI技术推送