登录
注册
原创博客
(current)
算法案例
(current)
期刊会议
学术世界
领域期刊
SCI/SCIE/SSCI/EI简介
期刊列表
会议列表
所有期刊分区
学术期刊信息检索
JCR期刊分区查询
CiteScore期刊分区查询
中科院期刊分区查询
领域期刊分区
管理 - UTD24期刊列表
管理 - AJG(ABS)期刊星级查询
管理 - FMS推荐期刊列表
计算机 - CCF推荐期刊会议列表
高校期刊分区
南大核心(CSSCI)
合工大小核心
合工大大核心
AI资源仓库
AI论文快讯
AI预训练模型
AI数据集
AI开源工具
数据推荐
价值评估
数据集评分
AI工具评分
论文评分
专利列表
专利检索
科技大数据评估系统
网址导航
我的网址导航
程序员必备网站
层次贝叶斯模型(一) 之 构建参数化的先验分布
标签:
#层次模型#
#统计推断#
#贝叶斯模型#
时间:2016-04-07 08:19:13
作者:小木
**这个系列的博客来自于 Bayesian Data Analysis, Third Edition. By. Andrew Gelman. etl. 的翻译** 翻译属于原创,转载请注明来源。谢谢。 很多统计模型都有多个参数,这些参数也可以通过某种方式变成具有结构的问题,意味着这些参数的联合概率模型应当反应出它们之间的依赖关系。举个例子说,在研究心脏病治疗效果的时候,医院 j 的病人的存活率为θ
j
,那么我们估计θ
j
应当是相互联系的。我们可以看到使用先验分布,把θ
j
当作一个总体分布的样本是很自然的事情。这样的应用有一个很关键的点是,观测数据,y
ij
,其中 i 表示组的索引,j 表示单元的索引,可以用来估计θ
j
的总体分布,即便θ
j
并不是观测的。这样的问题使用层次模型是很自然的事情,其中观测的结果是在某些参数下的条件模型,这些参数称为超参数。这样的层次模型可以帮助我们理解多参数问题,并且在寻找计算策略时提供重要帮助。 实际中,简单的非层次模型可能并不适合层次数据:在很少的参数情况下,它们并不能准确适配大规模数据集,然而,过多的参数则可能导致过拟合的问题。相反,层次模型有足够的参数来拟合数据,同时使用总体分布将参数的依赖结构化,从而避免过拟合问题。 在本章节中,Section1,我们考虑使用层次准则构建先验分布,但不构建一个正式的具有层次结构的概率模型。我们首先考虑分析单组实验,使用历史数据构造先验分布,然后考虑对一组实验的参数构建一个灵活的先验分布。Section1中的实验并不完全是贝叶斯,为了便于阐述,我们只做点估计,不考虑完整的联合后验分布。在Section2中,我们讨论如何在完全的贝叶斯分析情境下构造层次先验分布。Section3-4通过联合分析的和数值的方法,利用共轭分布族,描述层次模型的一般性计算方法。这里将说明两个扩展的案例:一个教育实验的层次模型和一个医疗研究。我们将使用这两个案例说明一些研究中共同的问题。我们将说明弱信息先验在构造适合分组较小的数据中的层次模型的重要性。 **1 构建参数化的先验分布在历史数据中分析单次实验** 为了描述层次模型,我们首先考虑这样一个问题:使用一小组实验数据估计参数θ,其中先验分布从历史相似的试验中构造。从数学上看,我们把现在和历史的实验当作是从一个相同总体中获得的一个随机样本。 **例子:估计一组小鼠患肿瘤的风险** 估计临床应用时药物的治疗效果,通常会使用啮齿动物做实验。从统计文献中我们引入一个研究,假设我们的目标是估计θ,总体为雌性实验小鼠,类型为F344,在不摄取药物的情况下患肿瘤的概率(对照组)。数据显示,14只小鼠中有4只患了某种肿瘤。很自然的我们假设患肿瘤的数量为二项模型,其参数为θ。为了方便,我们从共轭分布族中选择θ 的先验分布,θ ∼ Beta (α, β)。 **固定先验分布的分析** 从历史数据中,假设我们知道F344型雌性实验小鼠患肿瘤的概率为θ,服从近似的beta分布,其均值和标准差已知。肿瘤概率θ 变化是因为小鼠本身的差异和实验条件的差别。我们可以通过查表知道α 和β 的值。假设θ 的先验分布Beta(α, β)会产生后验分布Beta(α + 4, β + 10)。实际上,似然函数是指关于参数的函数,通常在给定观测值情况下,我们能描绘出观测值的分布情况,该观测值的分布通常是关于某种参数的函数。在这里,小鼠患肿瘤的概率是二项分布,是观测的结果的分布,我们假设该二项分布的参数为θ。θ是我们关心的参数,即待估计参数,而贝叶斯分析中,任何参数都来自于某个分布。由于似然函数是二项分布,对于先验分布,我们没有可用的信息,因此采用共轭先验作为参数的先验,二项分布的共轭分布是Beta分布,所以我们假设θ的先验分布服从Beta分布,从而导致其后验分布也服从Beta分布。  **使用历史数据近似估计总体分布** 一般情况下,潜在肿瘤风险的均值和标准差我们是不知道的。但是,类似实验条件下的历史实验数据我们是了解的。小鼠实验中,历史数据是70组的小鼠时间,如表5.1所示。在第j次试验中,小鼠总数为nj,患肿瘤的小鼠数量为yj。我们把yj当作独立的二项数据,其样本大小为nj。假设参数为α, β 的先验分布beta能够很好的描述历史实验数据,我们可以用图5.1来表示71次的实验情况。 观测样本的均值和标准差分别是0.136和0.103。如果我们把总体分布的均值和标准差设置成这样的数值,我们就可以得到先验分布的α, β。那么对α, β的估计结果就是(1.4,8.6)。这并不是贝叶斯计算,因为他不是基于全概率模型。我们将在Section3中提出贝叶斯的估计方法。 使用历史总体分布简单地估计先验分布产生了Beta(5.4,18.6)这样的关于θ的后验分布结果,其后验均值是0.233,标准差是0.083。先验信息导致了后验均值比实际要低。4/14=0.286。因为实验的权重表明肿瘤的数量在当前实验中偏高。 Beta分布的均值和方差计算方法如下: ```katex \mu = \frac{\alpha}{\alpha+\beta} ``` ```katex \sigma^{2} = \frac{\alpha\beta}{(\alpha+\beta)^{2}(\alpha+\beta+1)} ``` 这里简单解释一下,这里的几个主要分布如下: - 先验分布:根据后验二项分布,我们选择共轭Beta分布作为先验分布,为Beta(α, β) - 似然函数:即观测值的分布,小鼠患肿瘤与否,可以看作是二项分布。 - 后验分布:根据前面的假设,我们知道后验分布是Beta分布,我们假设了上面的先验 分布和似然函数产生的后验分布为Beta(α + 4, β + 10)我们使用历史数据的结果作为先验分布,历史数据的均值为0.136,标准差为0.103,计算可以得到先验分布的(α, β) 为(1.4,8.6)。同时根据上述计算结果可以得到后验分布Beta(α + 4, β + 10)为(5.4,18.6)。从而得到预测第71次实验小鼠患肿瘤的概率为0.233,而第71次实验实际小鼠患肿瘤的概率为0.286。 这些分析需要把当前的肿瘤风险,即第71和70次历史肿瘤风险θ
1
, …, θ
70
当作来自相同分布的随机样本,这个假设无法证实。比如实验室环境和试验时间的变化。实际中,一个简单但却武断的解释当前数据和历史数据差异的方法是提高方差。对beta模型来说,当 α,β 是常数的时候,即均值不变,提升历史数据的方差意味着减小(α + β)。其他的差异,比如肿瘤风险的时间趋势,可以用更多地扩展引入。使用70次历史实验构造第71次实验的先验分布,我们也可以使用这样的先验分布获得前70次的肿瘤概率的贝叶斯推断。从已有的数据中直接估计先验分布有几个实际的问题: - 如果我们使用估计的先验分布来推断前70次实验,那么数据会使用两次:首先是所有的数据用来估计先验分布,然后每个实验结果用来估计θ。这会导致我们高估精度。 - 对于α 和β 的点估计似乎过于武断。使用任何上面的方法估计α 和β 都忽略了某些先验的不确定性。 - 我们也可以做一些相反的点:这样估计α 和β 是否合理?他们都是先验分布的部分内容:根据贝叶斯推断的逻辑,他们是否应该在数据获取之前就应当知道? **联合信息的逻辑** 尽管有这些问题,先验尝试从总体数据中估计总体分布要更加合理,从而有助于估计每一个θ
j
,而不是单独的估计每一个θ
j
的值。考虑如下的估计两个参数的实验,θ
26
和θ
27
,每一个实验都观测到患肿瘤的小鼠是20个。假设我们对θ
26
和θ
27
的先验都是0.15。假设你被告知数据分析后,θ
26
= 0.1。这会影响你对θ
27
的估计。实际上,它可能使你认为θ
27
要比你之前估计的要低。因为先前对两个参数的估计的数据是一样的。而对于θ
26
估计的结果是0.1,要低于之前的期望,因此,θ
27
的值应当更低。所以,我们可以看到θ
26
和θ
27
在后验分布中是有依赖关系的,我们不能分开分析。我们可以通过对总体参数集合和实验建立概率模型来保留使用数据估计先验参数的优点,去除它的缺点,然后使用贝叶斯分析模型的联合分布参数。完整的贝叶斯分析将在Section3中进行。使用数据估计先验参数有时候被称为经验贝叶斯(empirical Bayes),可以理解成是层次贝叶斯分析的一个近似。我们尽量避免使用经验贝叶斯的说法,因为它会和完整的贝叶斯方法混淆。
相关博客
最热博客