登录
注册
原创博客
(current)
算法案例
(current)
技术进展
(current)
论文笔记
期刊会议
期刊列表
会议列表
期刊查询
核心期刊
南大核心(CSSCI)
中科院JCR期刊分区
AJG(ABS)星级期刊
合工大小核心
合工大大核心
数据推荐
工具推荐
网址导航
Learning From Crowds
小木
Journal of Machine Learning Research
2010-10
1414
2017/05/14 23:57:48
[TOC] 在很多有监督的学习任务中想要获取客观的并且可靠的标签是很困难的。很多标签都使用大量的人工进行标注,然而,人工标注可能会产生不一致的结果。在这篇文章中作者提出了一个概率模型从多个标注者的标注结果中学习潜在的数据标签。 ###含有多个标注者的有监督的学习 一个典型的有监督的学习场景由一组训练街组成$\mathcal{D} = (x_i,y_i)$这里的$i=\\{1,...,N\\}$,即共有$N$个实例,其中$x_i$是数据,$y_i$是该数据对应的标签。任务是学习一个函数$f:x \to y$,可以预测未知的数据标签。对于二分类的问题来说,$\mathcal{Y}={1,...,K}$(顺序为$1< ...< K$)。实际中,标签不容易获得,使用人工标注的结果有很多差异和不一致。为了解决这个不一致的问题,作者提出了一个模型希望可以解决如下问题: 1、如何在有很多个标注结果的情况下使用传统的有监督的学习方法? 2、当我们没有标准的标签的时候如何评价学习系统? 3、一个非常接近的问题是如何评估每个标注者的可靠性? ###“赢者通吃”的缺点 在很多情况下,对有冲突的标注的数据通常都用标注最多的结果作为最终标签,即: ```math \hat{y_i}= \begin{cases} 1 \space\space\space\space \textbf{if} (1/R)\sum_{j=1}^Ry_i^j > 0.5\\ 0 \space\space\space\space \textbf{if} (1/R)\sum_{j=1}^Ry_i^j < 0.5 \end{cases} ``` 还有一种方式是将每一个标注结果都作为一个实例,以此来训练模型。然而,对于有噪音的结果这两种方式都是有问题的。 ###相关工作 对于解决有冲突的数据标注问题已经有了很多研究了,本篇论文的模型与他们不同(作者列举了五点,个人只记录前面两个比较重要的): 1、与Dawid(1979)和Smyth(1995)只关心估计多噪音标签下的真实结果不同,作者主要解决学习一个分类器的问题。估计真实标签是作者工作的副产品。 2、为了学习一个分类器,Smyth(1995)首先估计真实标签结果,然后去学习,而作者的模型师在学习真实标签的结果的同时训练分类器。作者发现这种方式的结果好。 ###二分类 首先作者描述了关于标注者的一个噪音模型。每个标注者的水平使用未知的敏感性和专业性表示(这和之前的文章[Multilevel Bayesian Models of Categorical Data Annotation](http://www.datalearner.com/paper_note/content/300020 "Multilevel Bayesian Models of Categorical Data Annotation")思路是一致的)。 ####标注者的两面硬币模型 假设$y^j \in \\{0,1\\}$是第$j$个标注者对实例$x$的标注结果,$y$是该实例的真实标签(不可观测)。假设该实例真实标签为1,那么标注者掷一个硬币,其偏移为$\alpha^j$(敏感性)。假设真实标签为0,那么标注者掷另外一个硬币,其偏移为$\beta^j$(专业性)。根据硬币结果她选择标注结果。因此,我们有: ```math \alpha_j : \textbf{Pr}[y^j=1|y=1] ``` ```math \beta^j:= \textbf{Pr}][y^j=0|y=0] ``` ####分类模型 假设我们有一类线性判别模型:$\mathcal{F}=\\{f_w\\}$,对于任意的$x,w\in R^d$,有$f_w(x)=w^Tx$。最终的分类模型如下:$\hat{y}=1 \space\space \textbf{if}\space w^Tx\geq\gamma$,其他情况为0。阈值$\gamma$决定分类器的判别位置。ROC曲线(Receiver Operating Characteristic)就是通过移动$\gamma$在$-\infty,\infty$得到的结果。正例最终可以通过logistic sigmoid得到: ```math \textbf{Pr}[y=1|x,w]=\sigma(w^Tx) ``` 这里的logistic sigmoid函数是$\sigma(z)=1/(1+e^{-z})$ ####估计/学习 给定训练集$\mathcal{D}$,由N个实例和R个标注者组成,也就是说$\mathcal{D}=\\{x_i,y_i^1,...,y_i^R\\}^N_1$,任务就是估计权重向量$w$、敏感性$\alpha=[\alpha^1,...,\alpha^R]$和专业性$\beta=[\beta^1,...,\beta^R]$。同时,我们也会求出每个数据的真实标签$y_1,...,y_N$。 #####极大似然估计 假设训练集是独立样本,似然函数的参数是$\theta=\\{w,\alpha,\beta\\}$,在给定观测值$\mathcal{D}$的情况下有: ```math \textbf{Pr}[\mathcal{D}|\theta] = \prod_{i=1}^N \textbf{Pr}[y_i^1,...,y_i^R | x_i,\theta] ``` 给定真实标签$y_i$,我们也假设每个人的标注结果$y_i^j$也是条件独立的,那么似然函数可以分解成: ```math \begin{aligned} \textbf{Pr}[\mathcal{D}|\theta] &= \prod_{i=1}^N \{ \textbf{Pr}[y_i^1,...,y_i^R |y_i=1,\alpha]\textbf{Pr}[y_i=1 |x_i,w] \} \\ &+ \prod_{i=1}^N \{ \textbf{Pr}[y_i^1,...,y_i^R |y_i=0,\beta]\textbf{Pr}[y_i=0 |x_i,w] \} \end{aligned} ``` 在给定真实标签$y_i$的时候,我们假设$y_i^1,...,y_i^R$是独立的,也就是每个人都是独立决策自己的标注结果。因此有: ```math \textbf{Pr}[y_i^1,...,y_i^R |y_i=1,\alpha] = \prod_{j=1}^R \textbf{Pr}[y_i^j|y_i=1,\alpha^j]=\prod_{j=1}^R[\alpha^j]^{y_i^j}[1-\alpha^j]^{1-y_i^j} ``` 于是,我们可以将似然函数写成: ```math \textbf{Pr}[\mathcal{D}|\theta] = \prod_{i=1}^N=[a_ip_i+b_i(1-p_i)] ``` 其中: ```math p_i := \sigma(w^Tx_i) ``` ```math a_i := \prod_{j=1}^R[\alpha^j]^{y_i^j}[1-\alpha^j]^{(1-y_i^j)} ``` ```math b_i := \prod_{j=1}^R[\beta^j]^{(1-y_i^j)}[1-\beta^j]^{y_i^j} ``` 最后,极大似然估计的结果如下: ```math \hat{\theta}_{\textbf{ML}} = \{\hat{\alpha},\hat{\beta},\hat{w}\} = \textbf{argmax}_{\theta}\{\ln \textbf{Pr}[\mathcal{D}|\theta]\} ``` #####EM算法 sss
赏
支付宝扫码打赏
如果文章对您有帮助,欢迎打赏鼓励作者
Back to Top