回归模型中的交互项简介(Interactions in Regression)
在回归模型中加入交互项是一种非常常见的处理方式。它可以极大的拓展回归模型对变量之间的依赖的解释。这里举一个例子,来自于Interpreting Interactions in Regression。
假设我们要为一个灌木丛的高度(变量名为Height)建模,考虑的条件是土壤中细菌的数量(变量名为Bacteria)以及灌木丛所在的位置是充满阳关,还是只能收到部分阳光照射(变量名为Sun)。灌木丛高度按照厘米单位计算,细菌是以每千立方厘米的土壤中包含的细菌数量计算,如果在充满阳光的条件下,则Sun=1,在部分光照条件下,Sun=0。那么灌木丛高度的回归模型我们可以表示如下:
\text{Height} = \text{B}_0 + \text{B}_1\times\text{Bacteria}+\text{B}_2\times\text{Sun}
一种根据实际数据估计的结果是(举个例子):
\text{Height} = 42 + 2.3\times\text{Bacteria}+11\times\text{Sun}
现在,如果我们要检验一个假设,即土壤中细菌的数量在充满阳光和只有部分光照下是不同的。那么加入交互项就是一个非常好的方法。
一种可能性是充满阳光的条件下,土壤中有更多的细菌,植物一般也会可能长得更高。而在部分光照条件下,土壤中有更多的细菌,植物可能会长得更矮。另一种可能的假设是在有更多细菌的土壤中,不管关照条件如何,植物都会长得更高。但是在光照充分的条件下,这种关系可能更明显。
交互项的出现可以表明一个预测变量对一个相应变量的影响在其他预测变量有不同值的时候,是不同的。它的测试方式是将两个预测变量相乘的项放入模型中。也就是上述回归模型就变成了如下形式:
\text{Height} = \text{B}_0 + \text{B}_1\times\text{Bacteria}+\text{B}_2\times\text{Sun}+\text{B}_3\times \text{Bacteria}\times\text{Sun}
将一个交互项放到模型中会极大的改善所有相关系数的可解释性。例如,在这个例子中,如果没有交互项,那么\text{B}_1就被解释成细菌对高度的单独的影响。但是有了交互项之后,细菌对高度的影响也与光照的情况有关系。细菌对高度的影响不再是局限于\text{B}_1,也依赖于\text{B}_3和\text{Sun}。那么细菌的影响应当表示成\text{B}_1+\text{B}_3\times\text{Sun}。\text{B}_1的含义是当\text{Sun}=0的时候,细菌的单独的影响。在这个例子中,加入了交互项之后,我们的模型最终是:
\text{Height} = 35 + 4.2\times\text{Bacteria}+9\times\text{Sun}+3.2\times\text{Bacteria}\times\text{Sun}
在加了交互项之后,\text{B}_1和\text{B}_2的结果也变了。现在细菌对高度的影响变成了4.2+3.2\times\text{Sun}。当光照不充分,即\text{Sun}=0的时候,细菌的影响是4.2。因此,对于光照不充分的情况下,如果一种植物的土壤中每千立方厘米的细菌含量比另一种多1000的话,那么这个植物可能比另一个高4.2cm。同样的,在光照充分的条件下,这个细菌的影响变成了7.4。也就是说,对于光照充分的情况下,如果一种植物的土壤中每千立方厘米的细菌含量比另一种多1000的话,那么这个植物可能比另一个高7.4cm。
由于相互项的存在,植物处于完全或部分的阳光下,土壤中的细菌含量对植物高度的影响是不同的。 另一种说法是,不同类别的光照条件,植物高度和细菌数之间回归线的斜率是不同的。 \text{B}_3表示这些斜率有多不同。
在这里,对\text{B}_2的解释要更加困难。\text{B}_2是指土壤细菌含量为0的情况下,光照的影响。由于细菌含量是一个连续变量,它也不可能为0。因此,\text{B}_2本身并没有特别实际的含义。光照的影响是\text{B}_2+\text{B}_3\times\text{Bacteria},这也是一个连续变量,在每一种不同的细菌含量上都有不同的值。因此,对于光照本身的理解可以考虑将几个不同的细菌含量的值放到模型中,去看看植物高度和响应变量是如何变化的。
欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
