登录
注册
原创博客
(current)
算法案例
(current)
期刊会议
学术世界
领域期刊
SCI/SCIE/SSCI/EI简介
期刊列表
会议列表
所有期刊分区
学术期刊信息检索
JCR期刊分区查询
CiteScore期刊分区查询
中科院期刊分区查询
领域期刊分区
管理 - UTD24期刊列表
管理 - AJG(ABS)期刊星级查询
管理 - FMS推荐期刊列表
计算机 - CCF推荐期刊会议列表
高校期刊分区
南大核心(CSSCI)
合工大小核心
合工大大核心
AI资源仓库
AI论文快讯
AI预训练模型
AI数据集
AI开源工具
数据推荐
价值评估
数据集评分
AI工具评分
论文评分
专利列表
专利检索
科技大数据评估系统
网址导航
我的网址导航
程序员必备网站
层次贝叶斯模型(二) 之 互换性和建立层次模型
标签:
#层次模型#
#统计推断#
#贝叶斯#
时间:2016-04-03 17:15:43
作者:小木
**这个系列的博客来自于 Bayesian Data Analysis, Third Edition. By. Andrew Gelman. etl. 的第五章的翻译。** 翻译属于原创,转载请注明来源。谢谢。本节将讲述互换性并建立层次模型 ##### 2 互换性和建立层次模型 上述例子一般化,考虑一组实验1, ..., J,其中实验j有数据(向量)yj ,参数(向量)θj,似然函数为p(yj|θj)。不同实验的参数有可能重复。比如,每一个数据向量yj可能是从一组二项分布中获得的样本,该二项分布的均值为µj,方差相同,为σ2,也就是说,θj ∼ (µj, σ2)。为了构建这样一个所有参数的联合概率模型,我们需要用到Chapter1中的互换性。 **互换性** 如果除了数据没有任何其他信息可以帮助我们区别θj,并且参数没有顺序且无法分组,必须假设参数在先验分布中是对称的。这种对称性在概率中可以用互换性表示。即如果p(θ1, ..., θj)对索引的排列来说是不变的,那么参数(θ1, ..., θj)是可交换的。比如,在小鼠肿瘤问题中,假设我们除了用小鼠的数量无法用其他信息区别实验的差别,且假定其余θj的值不相关,那么我们可以认为θj是可交换的。 从数据中直接构造独立同分布模型的时候,我们已经遇到了互换性的概念。实际中,未知意味着互换性。一般情况下,我们知道得越少,我们越可以使用互换性。但这不意味着我们要限制我们对问题的了解。考虑掷色子:我们开始应当对六种输出赋予相等的概率,但如果我们对色子仔细研究,我们可能会注意到某一组的输出可能性要高于其他组,从而消除了该组对于其他组的对称性。 可交换的分布的一个最简单的形式是对于每一个参数θj,可以当作是从先验分布中获得的一个独立的样本,先验分布有一组未知的参数向量φ控制,因此有公式(5.1): ```katex p(\theta|\phi)=\prod_{j=1}^{J}p(\theta_{j}|\phi) ``` 注:当我们把每一组实验当作来自于某个总体的独立同分布样本的时候,其联合概率分布运用独立性法则可以直接使用独立样本分布的乘积形式。即当X、Y相互独立的时候,P (X, Y ) = P (X)P (Y )。故从而得到(5.1)的公式。 一般情况下,φ是未知的,因此θ的分布去除φ中不确定性公式(5.2): ```katex p(\theta)=\int\left(\prod_{j=1}^{J}p(\theta_{j}|\phi)\right)p(\phi)d\phi ``` 这个形式是混合的独立同分布形式,经常会用来说明实际中的互换性。一个相关的理论结果,de Finetti’s理论,认为当J → ∞时,任何一个在(θ1, ..., θj)上恰当的可交换的分布都可以当作是一个混合的独立同分布。当J是无穷大时,这个理论并不成立。从统计学的角度说,混合模型将参数θ描述成来自于被未知超参数φ控制的共同的“超级总体”的结果(The mixture model characterzies parameters θ as drawn from a common ’superpopulation’ that is determined by the unknow hyperparameters, φ)。在给定参数向量θ的情况下,我们已经熟悉了数据的互换性模型,它的似然函数的形式中,n个观测量是独立同分布的。 上述混合模型的一个简单的反例,考虑一个给定的色子六个面向上的概率。概率θ1, ..., θ6是可交换的,但是这六个参数的和是1,所以它们不能使用混合的独立同分布模型建模。然而它们可以通过互换性建模。 **例子:互换性和抽样** 下面的实验说明了互换性在从随机样本中做推断的作用。为了方便,我们使用y层面上的互换性的非层次案例。作者选择了美国8个州在1981年每1000个总体的离婚数量。表示为y1, ..., y8。那么你认为第八个州的离婚率y8是多少?由于我们没有任何信息区别这8八个州的差异,我们建模的时候可以考虑互换性。你可以使用一个beta分布来为8个yj建模,也可以用正态分布或者其他限制在[0,1]范围内先验分布。除非你很熟悉美国的离婚率,否则你的(y1, ..., y8)的分布应该是相对模糊的。现在我们随机从8个州中选择7个州,告诉你离婚率分别是每1000个总体中有:5.8,6.6,7.8,5.6,7.0,7.1,5.4,那么根据这些数据,我们可以合理地认为第8个州的后验分布下的值y8可能集中在6.5附近且大部分值可能在5.0到8.0之间。改变索引不改变联合分布。如果我们将剩下的值重新编号,我们的估计结果是一样的,yj是可交换的,但并不是独立的,因为我们假设第8个州的离婚率是不可观察的,但它可能和观测的离婚率相似。 假设我们给你这八个州的一些信息,它们都是山区州:Arizona, Colorado, Idaho, Montana, Nevada, NewMexico, Utah和Wyoming,但是顺序随机,你仍然不知道每个州对应的离婚率。在7个州的数据被观察到之前,这8个离婚率依然是可交换的。然而,你的先验分布,却要改变(在看到数据之前):由于Utah州的人有很多摩门教徒,因此我们可以合理的假设Utah离婚率要比其他7个州低。而对于Nevada州拥有宽松的离婚政策,它的离婚率应该要比其他州高很多。或许,在给定分布中异常值的期望下,你的先验分布应该有很宽的尾巴。给定这个额外信息下(8个州州名),当你看到7个州的数据后,它们是如此的相近,那么我们可以合理的假设缺失的第8个州应该是Utah或者Nevada。因此,它的离婚率的值应当远低于或者远高于其它7个观测值。这可能会导致一个双峰或者三峰后验分布来解释这两个场景。然而,这8个yj值的先验分布仍然是可交换的,因为你没有州的索引的信息。最后,我们告诉你那个没有抽样的州是Nevada。现在在观测到7个州的数据之前,你不能给这8个州的离婚率可互换性,因为你已经能把第8个州的数据从其他7个州中区别开来,它可能要高于其他7个州。一旦观测到y1, ..., y7,y8合理的后验分布应当是在观测值中拥有最大的离婚率,也就是说p(y8 > max(y1, ..., y7)|y1, ..., y7)应该比较大。 实际上,Nevada在1981年的离婚率是1000个总体中有13.9个离婚的。 ##### 当元素包含额外信息的时候的互换性 很多情况下,观测量并不是完全可交换的,而是部分的或者条件下可交换的。 - 如果观测量可以被分组,我们可以构造层次模型,其中每一组有其自己的模型,但是组的属性未知。如果我们假设组的属性是可以交换的,我们就可以对组的属性设置一个共同的先验分布 - 如果yj 有额外的信息xj,那么yj并不是可交换的,但(yj, xj)是可交换的,从而我们可以建立一个联合分布(yj, xj)或者条件模型yj|xj 在小鼠肿瘤实验中,由于在实验条件中没有额外的信息,因此yj是可交换的。如果我们知道某批次的实验条件是不同的,那么我们可以假设部分可交换行并使用两层模型来为不同实验条件下不同变量建模。在离婚的例子中,如果我们知道xj,即去年某一个州的离婚率。对于1,...,8我们不知道对应到哪个具体的州,但对于8个州的yj我们是可以区分的,而(yj, xj)对每个州都是一样的。对于去年具有同样离婚率的州来说,我们可以使用分组的情况假设部分的可交换性或者如果xj有很多的值,我们可以假设条件可交换性,并在回归模型中,将xj当作协变量。 一般情况下,使用协变量建立可交换性是通过条件独立完成的: ```katex p(\theta_{1},...,\theta_{J}|x_{1},...,x_{J})=\int\left[\prod_{j=1}^{J}p(\theta_{j}|\phi,x_{j})\right]p(\phi|x)d\phi ``` 其中x = (x1, ..., xj)。在这种情况下,可交换性的模型几乎全部可用,因为任何可用的能区分差别的信息都被编入x和y变量中了。 在小鼠肿瘤的例子中,我们已经注意到样本大小nj是唯一区别不同实验的信息。但nj似乎并不是一个为肿瘤建模的很好的变量,但是如果有人有兴趣,也可以建立一个可交换的模型(n, y)j。很自然的,第一步应当画 yj/nj 与nj 的图,看看二者之间是否具有明显的相关性。比如,对于某些样本量nj 较大的实验j,可能是因为研究人员更正了一些怀疑的实验。也就是说,对于较小θj来说,应当有更小的期望值 yj/nj。实际上,这二者的图画出来并不具有什么明显的相关性。 ##### 对可交换模型的异议 事实上,对于任何统计应用来说,应当很自然的反对可交换行,因为任何元素实际上都是不同的。比如,针对71个小鼠肿瘤实验,在不同的实验室、不同时间和不同小鼠上的实验。这些信息实际上是不可能具有互换性的。也就意味着,实际上θj也是不一样的,但是如果我们把它们当作来自相同分布的结果是很容易接受的。实际上,没有信息区别实验的话,我们逻辑上只能把他们当作可交换的。反对为未知信息构建可交换性模型其实并不比反对其他建模合理,比如反对来自同一个样本是独立同分布的,反对回归模型,反对没有个体标签的散点图。在回归模型中,其实关心的不是可交换性,而是尽可能的将相关信息变成解释变量。 ##### 完整的层次贝叶斯模型 回到我们的推断问题,这些模型中关键的层次部分是指φ未知,因此它有自己的先验分布,p(φ)。那么,合适的贝叶斯后验分布就是向量(φ, θ)。联合先验分布如下: ```katex p(\phi,\theta)=p(\phi)p(\theta|\phi) ``` 联合后验分布为公式(5.3): ```katex p(\phi,\theta|y) \propto p(\phi,\theta)p(y|\phi,\theta) = p(\phi,\theta)p(y|\theta) ``` 上面后面的化简成立是因为由于数据分布,p(y|φ, θ)仅仅依赖于θ,超参数φ仅仅通过θ影响y。之前,我们假设φ是已知的,但这是不现实的,因此我们现在引入模型中φ的不确定性。 ##### 超先验分布 为了构建量(φ, θ)的联合概率分布,我们必须为φ给定一个先验分布。如果对φ的信息了解很少,我们可以给予一个模糊的先验分布,但给定一个不恰当的先验分布时候需要主要检查其后验分布是否是恰当的。我们必须评估我们的结论对这种简化的假设是否敏感。在大多数现实的问题中,如果我们不给定超先验分布的话,我们必须知道足够的关于参数φ的知识,或者至少要知道它所在的有限的区域。在非层次贝叶斯模型中,通常我们开始用一个简单的相对信息较少的先验分布,当后验分布中剩下太多的变量的时候,我们需要逐步添加先验信息。在小鼠肿瘤实验中,超参数是(α, β),它决定了θ的beta分布。我们将在下章节中讲述一个构建合适的超先验分布的例子。 ##### 后验预测分布 层次模型需要超参数φ和参数θ来描述。对数据分析师来说,有两种可能的后验预测分布比较有用:(1)关于已存在的θj的未来的观测值y ˜的分布;(2)关于从相同超级总体中获得的θj的未来观测值y ˜的分布。我们把未来的θj表示成θ˜。在小鼠肿瘤实验中,未来的观测值可能是:(1)已存在实验中的其他小鼠,或者是(2)未来实验的结果。在前者中,后验预测y ˜是基于已存在的实验的θj。后者,我们必须先推断出新实验的θ˜,然后在仿真的θ˜下获取y ˜。 相关推荐: 层次贝叶斯模型(一) 之 构建参数化的先验分布 层次贝叶斯模型(三) 之 共轭层次模型的完整贝叶斯分析
相关博客
最热博客