Multilevel Bayesian Models of Categorical Data Annotation论文简介及其笔记| 论文笔记好用的论文笔记工具

Multilevel Bayesian Models of Categorical Data Annotation

小木 Unpublished manuscript 2008-09 3343 2017/05/14 23:58:14

这篇文章主要讲述使用多层贝叶斯（Multilevel Bayesian，感觉大多时候都应该是分层贝叶斯）模型为数据标注建模。为分类任务添加标签是一项非常重要的工作。但由于标注者自己认知的缺陷或者是多个标注者发生标注冲突时候，如何确定最终标签是一个非常重要的问题。作者的这项工作主要是从原始的标注结果中做一系列预测，最重要的是预测正确的标注结果。通过多层贝叶斯来组合个人与群体级别的数据我们可以较好的预测正确的数据标签。作者做了好几项的推断工作。我们将分别记录一下。首先从一个二项式模型，它不与标注者和项目的变化而变化。然后作者将模型拓展到多层次的。

####二项式模型
作者的模型的示意图（图模型）如下：

<center>
![](http://www.datalearner.com/resources/blog_images/97ebb2e3-a1f8-4db7-9ac1-e64d1a37a5b0.png)</center>

作者针对的模型主要是二分类模型，也就说每个数据的标注结果只有1和0两种。假设有$J$个标注者和$I$个待标注的项目，$c_i$表示第$i$个项目的真实标签，假设$\pi$是标签为1的项目的流行度，我们有$c_i \sim \textbf{Bernoulli}(\pi)$，即数据结果为1的概率是取决于$\pi$这个值。$x_k$表示用户的标注结果。$\theta$是表示特殊性和敏感性的变量，也就是说，当项目$i$的真实标签为1（即$c_i = 1$）的时候，标注者标注该项目为1的可能性为$\theta_1$（也就是说$x_k \sim \textbf{Bernoulli} (\theta_1 | c_i=1)$），当项目的真实标签为0的时候，标注者标注该项目为1的可能性为$1-\theta_0$（即$x_k \sim \textbf{Bernoulli} (1-\theta_0 | c_i=0)$），合在一起就是：
```math
x_k \sim \textbf{Bernoulli}(c_i\theta_1+(1-c_i)(1-\theta_0))
```
那么，所有的变量的联合概率为：
```math
p(\pi,c,\theta_0,\theta_1,x) = p(\pi)p(\theta_0)p(\theta_1)\prod_ip(c_i|\pi)\prod_kp(x_k|\theta_0,\theta_1,c)
```
在给定数据标注结果的情况下，作者最终需要估计的后验概率为$p(\pi,c,\theta_0,\theta_1|x)$，作者使用Gibbs抽样来解决这个问题。

赏

支付宝扫码打赏

如果文章对您有帮助，欢迎打赏鼓励作者