数据学习
AI博客
原创AI博客
大模型技术博客
期刊会议
学术世界
期刊出版社
领域期刊
SCI/SCIE/SSCI/EI简介
期刊列表
会议列表
所有期刊分区
学术期刊信息检索
JCR期刊分区查询
CiteScore期刊分区查询
中科院期刊分区查询
管理 - UTD24期刊列表
管理 - AJG(ABS)期刊星级查询
管理 - FMS推荐期刊列表
计算机 - CCF推荐期刊会议列表
南大核心(CSSCI)
合工大小核心
合工大大核心
AI资源仓库
AI领域与任务
AI研究机构
AI学术期刊
AI论文快讯
AI数据集
AI开源工具
数据推荐
AI大模型
国产AI大模型生态全览
AI模型概览图
AI模型月报
AI基础大模型
AI大模型排行榜
大模型综合能力排行榜
大模型编程能力排行榜
OpenLLMLeaderboard中国站
AI大模型大全
大模型部署教程
在线聊天大模型列表
2023年度AI产品总结
Making the Most of Crowdsourced Document Annotations: Confused Supervised LDA
小木
CoNLL
2015-09
2191
2017/02/06 09:46:55
从群体智慧中获取腿短结果非常有效,其最常用的方法是使用投票最多的结果作为结论。但这会忽略掉一些重要的信息。比如,有些标注者的可靠性不同,高可靠的标注者应当具有更高的权重。好的众包方法应当有一个概率机制能倾向于好的标注者。因此,评估标注者本身的专业程度是非常重要的一个问题。作者提出了一个模型,它同时对标注者和数据特征建模,用以提升众包的效果。 首先介绍一个简单的概率模型。它是1979年的文章,后来的模型大多数基于整个模型的改进。这个方法被称为ITEMRESP。它有一个混淆矩阵$\gamma_j$,它是来自于标注者$j$。每个混淆矩阵$\gamma_j$的行$\gamma\_{jc}$是来自一个对称的Dirichlet分布$Dir(b\_{jc}^{(\gamma)}$,它是类标签的概率分布,是当当前文档的真实标签为c的情况下,标注者j对文档标注结果的概率分布。那么,对于每个文档$d$,我们都可以抽取一个标签$y_d$。标注者j根据类别分布$Cat(\gamma\_{jy\_{d}}$生成一个标注结果。 ####利用数据的扩展 ITEMRESP有很多的扩展,其中之一是对数据的特征进行建模。主要包括判别模型和生成模型两类。Felt认为生成模型在众包场景下更为合适,因为生成模型的学习比条件模型更快。ITEMRESP的扩展通常认为所有的文档都有一个共同高层次的结构。当每个文档$d$的标签抽取出来之后,该标签下的特征也就可以抽取了。Felt就提出了MONRESP模型,如图2所示,来表示众包的模型。在MOMRESP模型中,文档$d$的特征向量$x_d$来自参数为$\phi_y_d$的多项式分布。这种模型继承了很多朴素贝叶斯模型的优点(更简单的推导以及更好的偏差推导能使模型具有更好的鲁棒性)和缺点(对条件独立假设的严格限制导致对文档的特征的偏好,而降低了标注者特征的结果)。 ![](http://www.datalearner.com/resources/blog_images/857b064c-55e6-4f41-8c34-7c954b80b02e.png) ![](http://www.datalearner.com/resources/blog_images/7b596b81-f067-4a99-a96a-87450ec683bc.png) ####Confused Supervised LDA(csLDA) 作者通过一个新的模型来解决MOMRESP降低标注者权重的缺点。该模型将之前文档中类-条件结构变成了一个更加复杂的结构。作者先抽取一个文档,然后再通过log-linear抽取一个标签。同时,作者对话题和标签进行联合建模从而学习潜在的文档表示模型,能更好的预测更正标注者的错误。 作者的模型是基于有监督的话题模型改进而来。sLDA可以更好的将文档类别与主题结合起来。csLDA的生成过程如下: 1、从$Dir(b^{(\theta)})$中抽取主题词分布$\phi_t$ 2、从$Gauss(\mu,\sum)$中抽取类别的回归参数$\eta_c$ 3、从$Dir(b\_{jc}……{(\gamma)}$中抽取标注者的混淆矩阵$\gamma_j$ 4、对于每一个文档d (a)从$Dir(b^{(\theta)})$中抽取话题向量$\theta_d$ (b)对于每个单词n,从$Cat(\theta_d)$中抽取主题$z\_{dn}$,然后从$Cat(\phi_z\_{dn})$中抽取单词$w\_{dn}$ (c)抽取类标签$y_d$ (d)对于每个标注者,从$\gamma\_{jyd}$中抽取标注向量$a\_{dj}$
赏
支付宝扫码打赏
如果文章对您有帮助,欢迎打赏鼓励作者
Back to Top