DataLearner 标志DataLearnerAI
AI技术博客
大模型评测排行
大模型评测基准
AI大模型大全
AI资源仓库
AI工具导航

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
  1. 首页/
  2. 博客列表/
  3. 博客详情

回归模型中的交互项简介(Interactions in Regression)

2017/10/16 20:58:09
99,757 阅读
交互项回归模型正则项

在回归模型中加入交互项是一种非常常见的处理方式。它可以极大的拓展回归模型对变量之间的依赖的解释。这里举一个例子,来自于Interpreting Interactions in Regression。

假设我们要为一个灌木丛的高度(变量名为Height)建模,考虑的条件是土壤中细菌的数量(变量名为Bacteria)以及灌木丛所在的位置是充满阳关,还是只能收到部分阳光照射(变量名为Sun)。灌木丛高度按照厘米单位计算,细菌是以每千立方厘米的土壤中包含的细菌数量计算,如果在充满阳光的条件下,则Sun=1,在部分光照条件下,Sun=0。那么灌木丛高度的回归模型我们可以表示如下:

\text{Height} = \text{B}_0 + \text{B}_1\times\text{Bacteria}+\text{B}_2\times\text{Sun}

一种根据实际数据估计的结果是(举个例子):

\text{Height} = 42 + 2.3\times\text{Bacteria}+11\times\text{Sun}

现在,如果我们要检验一个假设,即土壤中细菌的数量在充满阳光和只有部分光照下是不同的。那么加入交互项就是一个非常好的方法。

一种可能性是充满阳光的条件下,土壤中有更多的细菌,植物一般也会可能长得更高。而在部分光照条件下,土壤中有更多的细菌,植物可能会长得更矮。另一种可能的假设是在有更多细菌的土壤中,不管关照条件如何,植物都会长得更高。但是在光照充分的条件下,这种关系可能更明显。

交互项的出现可以表明一个预测变量对一个相应变量的影响在其他预测变量有不同值的时候,是不同的。它的测试方式是将两个预测变量相乘的项放入模型中。也就是上述回归模型就变成了如下形式:

\text{Height} = \text{B}_0 + \text{B}_1\times\text{Bacteria}+\text{B}_2\times\text{Sun}+\text{B}_3\times \text{Bacteria}\times\text{Sun}

将一个交互项放到模型中会极大的改善所有相关系数的可解释性。例如,在这个例子中,如果没有交互项,那么$\text{B}_1$就被解释成细菌对高度的单独的影响。但是有了交互项之后,细菌对高度的影响也与光照的情况有关系。细菌对高度的影响不再是局限于$\text{B}_1$,也依赖于$\text{B}_3$和$\text{Sun}$。那么细菌的影响应当表示成$\text{B}_1+\text{B}_3\times\text{Sun}$。$\text{B}_1$的含义是当$\text{Sun}=0$的时候,细菌的单独的影响。在这个例子中,加入了交互项之后,我们的模型最终是:

\text{Height} = 35 + 4.2\times\text{Bacteria}+9\times\text{Sun}+3.2\times\text{Bacteria}\times\text{Sun}

在加了交互项之后,$\text{B}_1$和$\text{B}_2$的结果也变了。现在细菌对高度的影响变成了$4.2+3.2\times\text{Sun}$。当光照不充分,即$\text{Sun}=0$的时候,细菌的影响是4.2。因此,对于光照不充分的情况下,如果一种植物的土壤中每千立方厘米的细菌含量比另一种多1000的话,那么这个植物可能比另一个高4.2cm。同样的,在光照充分的条件下,这个细菌的影响变成了7.4。也就是说,对于光照充分的情况下,如果一种植物的土壤中每千立方厘米的细菌含量比另一种多1000的话,那么这个植物可能比另一个高7.4cm。

由于相互项的存在,植物处于完全或部分的阳光下,土壤中的细菌含量对植物高度的影响是不同的。 另一种说法是,不同类别的光照条件,植物高度和细菌数之间回归线的斜率是不同的。 $\text{B}_3$表示这些斜率有多不同。

在这里,对$\text{B}_2$的解释要更加困难。$\text{B}_2$是指土壤细菌含量为0的情况下,光照的影响。由于细菌含量是一个连续变量,它也不可能为0。因此,$\text{B}_2$本身并没有特别实际的含义。光照的影响是$\text{B}_2+\text{B}_3\times\text{Bacteria}$,这也是一个连续变量,在每一种不同的细菌含量上都有不同的值。因此,对于光照本身的理解可以考虑将几个不同的细菌含量的值放到模型中,去看看植物高度和响应变量是如何变化的。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码
返回博客列表

相关博客

  • 正则项的理解之正则从哪里来

热门博客

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8H5文件简介和使用