Making the Most of Crowdsourced Document Annotations: Confused Supervised LDA论文简介及其笔记| 论文笔记好用的论文笔记工具

Making the Most of Crowdsourced Document Annotations: Confused Supervised LDA

小木 CoNLL 2015-09 2766 2017/02/06 09:46:55

从群体智慧中获取腿短结果非常有效，其最常用的方法是使用投票最多的结果作为结论。但这会忽略掉一些重要的信息。比如，有些标注者的可靠性不同，高可靠的标注者应当具有更高的权重。好的众包方法应当有一个概率机制能倾向于好的标注者。因此，评估标注者本身的专业程度是非常重要的一个问题。作者提出了一个模型，它同时对标注者和数据特征建模，用以提升众包的效果。

首先介绍一个简单的概率模型。它是1979年的文章，后来的模型大多数基于整个模型的改进。这个方法被称为ITEMRESP。它有一个混淆矩阵$\gamma_j$，它是来自于标注者$j$。每个混淆矩阵$\gamma_j$的行$\gamma\_{jc}$是来自一个对称的Dirichlet分布$Dir(b\_{jc}^{(\gamma)}$，它是类标签的概率分布，是当当前文档的真实标签为c的情况下，标注者j对文档标注结果的概率分布。那么，对于每个文档$d$，我们都可以抽取一个标签$y_d$。标注者j根据类别分布$Cat(\gamma\_{jy\_{d}}$生成一个标注结果。

####利用数据的扩展
ITEMRESP有很多的扩展，其中之一是对数据的特征进行建模。主要包括判别模型和生成模型两类。Felt认为生成模型在众包场景下更为合适，因为生成模型的学习比条件模型更快。ITEMRESP的扩展通常认为所有的文档都有一个共同高层次的结构。当每个文档$d$的标签抽取出来之后，该标签下的特征也就可以抽取了。Felt就提出了MONRESP模型，如图2所示，来表示众包的模型。在MOMRESP模型中，文档$d$的特征向量$x_d$来自参数为$\phi_y_d$的多项式分布。这种模型继承了很多朴素贝叶斯模型的优点（更简单的推导以及更好的偏差推导能使模型具有更好的鲁棒性）和缺点（对条件独立假设的严格限制导致对文档的特征的偏好，而降低了标注者特征的结果）。

![](http://www.datalearner.com/resources/blog_images/857b064c-55e6-4f41-8c34-7c954b80b02e.png)
![](http://www.datalearner.com/resources/blog_images/7b596b81-f067-4a99-a96a-87450ec683bc.png)
####Confused Supervised LDA(csLDA)
作者通过一个新的模型来解决MOMRESP降低标注者权重的缺点。该模型将之前文档中类-条件结构变成了一个更加复杂的结构。作者先抽取一个文档，然后再通过log-linear抽取一个标签。同时，作者对话题和标签进行联合建模从而学习潜在的文档表示模型，能更好的预测更正标注者的错误。
作者的模型是基于有监督的话题模型改进而来。sLDA可以更好的将文档类别与主题结合起来。csLDA的生成过程如下：
1、从$Dir(b^{(\theta)})$中抽取主题词分布$\phi_t$
2、从$Gauss(\mu,\sum)$中抽取类别的回归参数$\eta_c$
3、从$Dir(b\_{jc}……{(\gamma)}$中抽取标注者的混淆矩阵$\gamma_j$
4、对于每一个文档d
　　（a）从$Dir(b^{(\theta)})$中抽取话题向量$\theta_d$
　　（b）对于每个单词n，从$Cat(\theta_d)$中抽取主题$z\_{dn}$，然后从$Cat(\phi_z\_{dn})$中抽取单词$w\_{dn}$
　　（c）抽取类标签$y_d$
　　（d）对于每个标注者，从$\gamma\_{jyd}$中抽取标注向量$a\_{dj}$

赏

支付宝扫码打赏

如果文章对您有帮助，欢迎打赏鼓励作者