数据学习
AI博客
原创AI博客
大模型技术博客
期刊会议
学术世界
期刊出版社
领域期刊
SCI/SCIE/SSCI/EI简介
期刊列表
会议列表
所有期刊分区
学术期刊信息检索
JCR期刊分区查询
CiteScore期刊分区查询
中科院期刊分区查询
管理 - UTD24期刊列表
管理 - AJG(ABS)期刊星级查询
管理 - FMS推荐期刊列表
计算机 - CCF推荐期刊会议列表
南大核心(CSSCI)
合工大小核心
合工大大核心
AI资源仓库
AI领域与任务
AI研究机构
AI学术期刊
AI论文快讯
AI数据集
AI开源工具
数据推荐
AI大模型
国产AI大模型生态全览
AI模型概览图
AI模型月报
AI基础大模型
AI大模型排行榜
大模型综合能力排行榜
大模型编程能力排行榜
OpenLLMLeaderboard中国站
AI大模型大全
在线聊天大模型列表
2023年度AI产品总结
Efficient Crowdsourcing for Multi-class Labeling
小木
ACM SIGMETRICS Performance Evaluation Review
2013-06
1722
2017/02/07 10:30:31
作者认为,众包是一种非常有效的获得类似标注任务的手段。但由于低质量的标注者的标注噪音的存在,我们需要使用冗余的标注手段,而处理冗余的方法一般是利用合适的推断方法来处理任务的冗余结果。在这边文章中,作者的目标是提出一个生成概率模型,来构造带有噪音的众包系统,并使用最小的成本(冗余)来完成目标。 模型与问题 假设我们有很多任务,每项任务都有K种可能的选择,每个标注者以$\pi\_{kl}$的概率标注出正确的结果$l \in K$且$l=k$(正确的结果为$k$),$k$是当前任务正确的结果。我们定义$\sum\_{l\in K}\pi \_{kl} = 1$,其中$k \in K$。我们将$\pi=[\pi\_{kl}] \in [0,1]^{K \times K}$该标注者的混淆矩阵。为了不失一般性,作者认为每项任务都有$\theta_k$的概率,其正确的标签为$k$,每个标注者则从一个混淆矩阵空间$\mathcal{D}$中抽出一个混淆矩阵$\pi$。于是,我们希望在给定的$n$个任务中,使用$m$个用户,从而使得任意一项任务都能以至少$1-\varepsilon$的概率获得正确的标注结果。事实上,如果一个任务只分配给一个用户,那么这项任务出错的概率就是: ```math \sum_{1 \leq l \leq K} \theta_l (1-E[\pi_{ll}]) ``` 其中,$E[\pi\_{ll}]$是$\mathcal{D}$的期望。为了降低错误概率,我们可以把这项任务分配给多个用户,然后取标注最多的结果。这种方法可以降低错误率,但是会增加冗余。
赏
支付宝扫码打赏
如果文章对您有帮助,欢迎打赏鼓励作者
Back to Top