层次贝叶斯模型(二) 之 互换性和建立层次模型
这个系列的博客来自于 Bayesian Data Analysis, Third Edition. By. Andrew Gelman. etl. 的第五章的翻译。 翻译属于原创,转载请注明来源。谢谢。本节将讲述互换性并建立层次模型
2 互换性和建立层次模型
上述例子一般化,考虑一组实验1,..., J,其中实验j有数据(向量)yj,参数(向量)θj,似然函数为p(yj|θj)。不同实验的参数有可能重复。比如,每一个数据向量yj可能是从一组二项分布中获得的样本,该二项分布的均值为µj,方差相同,为σ2,也就是说,θj ∼ (µj, σ2)。为了构建这样一个所有参数的联合概率模型,我们需要用到Chapter1中的互换性。 互换性 如果除了数据没有任何其他信息可以帮助我们区别θj,并且参数没有顺序且无法分组,必须假设参数在先验分布中是对称的。这种对称性在概率中可以用互换性表示。即如果p(θ1,..., θj)对索引的排列来说是不变的,那么参数(θ1,..., θj)是可交换的。比如,在小鼠肿瘤问题中,假设我们除了用小鼠的数量无法用其他信息区别实验的差别,且假定其余θj的值不相关,那么我们可以认为θj是可交换的。 从数据中直接构造独立同分布模型的时候,我们已经遇到了互换性的概念。实际中,未知意味着互换性。一般情况下,我们知道得越少,我们越可以使用互换性。但这不意味着我们要限制我们对问题的了解。考虑掷色子:我们开始应当对六种输出赋予相等的概率,但如果我们对色子仔细研究,我们可能会注意到某一组的输出可能性要高于其他组,从而消除了该组对于其他组的对称性。 可交换的分布的一个最简单的形式是对于每一个参数θj,可以当作是从先验分布中获得的一个独立的样本,先验分布有一组未知的参数向量φ控制,因此有公式(5.1):
p(\theta|\phi)=\prod_{j=1}^{J}p(\theta_{j}|\phi)
注:当我们把每一组实验当作来自于某个总体的独立同分布样本的时候,其联合概率分布运用独立性法则可以直接使用独立样本分布的乘积形式。即当X、Y相互独立的时候,P (X, Y ) = P (X)P (Y )。故从而得到(5.1)的公式。
一般情况下,φ是未知的,因此θ的分布去除φ中不确定性公式(5.2):
p(\theta)=\int\left(\prod_{j=1}^{J}p(\theta_{j}|\phi)\right)p(\phi)d\phi
这个形式是混合的独立同分布形式,经常会用来说明实际中的互换性。一个相关的理论结果,de Finetti’s理论,认为当J → ∞时,任何一个在(θ1,..., θj)上恰当的可交换的分布都可以当作是一个混合的独立同分布。当J是无穷大时,这个理论并不成立。从统计学的角度说,混合模型将参数θ描述成来自于被未知超参数φ控制的共同的“超级总体”的结果(The mixture model characterzies parameters θ as drawn from a common ’superpopulation’ that is determined by the unknow hyperparameters, φ)。在给定参数向量θ的情况下,我们已经熟悉了数据的互换性模型,它的似然函数的形式中,n个观测量是独立同分布的。 上述混合模型的一个简单的反例,考虑一个给定的色子六个面向上的概率。概率θ1,..., θ6是可交换的,但是这六个参数的和是1,所以它们不能使用混合的独立同分布模型建模。然而它们可以通过互换性建模。 例子:互换性和抽样 下面的实验说明了互换性在从随机样本中做推断的作用。为了方便,我们使用y层面上的互换性的非层次案例。作者选择了美国8个州在1981年每1000个总体的离婚数量。表示为y1,..., y8。那么你认为第八个州的离婚率y8是多少?由于我们没有任何信息区别这8八个州的差异,我们建模的时候可以考虑互换性。你可以使用一个beta分布来为8个yj建模,也可以用正态分布或者其他限制在[0,1]范围内先验分布。除非你很熟悉美国的离婚率,否则你的(y1,..., y8)的分布应该是相对模糊的。现在我们随机从8个州中选择7个州,告诉你离婚率分别是每1000个总体中有:5.8,6.6,7.8,5.6,7.0,7.1,5.4,那么根据这些数据,我们可以合理地认为第8个州的后验分布下的值y8可能集中在6.5附近且大部分值可能在5.0到8.0之间。改变索引不改变联合分布。如果我们将剩下的值重新编号,我们的估计结果是一样的,yj是可交换的,但并不是独立的,因为我们假设第8个州的离婚率是不可观察的,但它可能和观测的离婚率相似。 假设我们给你这八个州的一些信息,它们都是山区州:Arizona, Colorado, Idaho, Montana, Nevada, NewMexico, Utah和Wyoming,但是顺序随机,你仍然不知道每个州对应的离婚率。在7个州的数据被观察到之前,这8个离婚率依然是可交换的。然而,你的先验分布,却要改变(在看到数据之前):由于Utah州的人有很多摩门教徒,因此我们可以合理的假设Utah离婚率要比其他7个州低。而对于Nevada州拥有宽松的离婚政策,它的离婚率应该要比其他州高很多。或许,在给定分布中异常值的期望下,你的先验分布应该有很宽的尾巴。给定这个额外信息下(8个州州名),当你看到7个州的数据后,它们是如此的相近,那么我们可以合理的假设缺失的第8个州应该是Utah或者Nevada。因此,它的离婚率的值应当远低于或者远高于其它7个观测值。这可能会导致一个双峰或者三峰后验分布来解释这两个场景。然而,这8个yj值的先验分布仍然是可交换的,因为你没有州的索引的信息。最后,我们告诉你那个没有抽样的州是Nevada。现在在观测到7个州的数据之前,你不能给这8个州的离婚率可互换性,因为你已经能把第8个州的数据从其他7个州中区别开来,它可能要高于其他7个州。一旦观测到y1,..., y7,y8合理的后验分布应当是在观测值中拥有最大的离婚率,也就是说p(y8 > max(y1,..., y7)|y1,..., y7)应该比较大。 实际上,Nevada在1981年的离婚率是1000个总体中有13.9个离婚的。
