Interactive Topic Modeling论文简介及其笔记| 论文笔记好用的论文笔记工具

Interactive Topic Modeling

小木 Machine Learning 2014-06 2371 2017/02/06 09:55:36

主题模型是一个非常有用的工具，可以用来探索大规模文档的相关内容。然而，主题模型，如LDA获得的主题并不总是能被人们所理解。本篇文章提出了一种交互式话题模型来获得更好的主题结果。其主要工作包括：
1）作者建立了一个机制，可以将用户的反馈整合到交互式话题模型中。作者主要针对的信息是一个话题内部的词的相关性。目标是为了提升话题的一致性。作者主要的工作是针对树结构的先验（因为基于树的先验保留了共轭的性质，且更加容易用Gibbs抽样来进行推断）。基于此，作者提出了一个有效的基于树的话题模型框架。
2）当把用户的意见整合到模型中候，作者提出了一个交互式话题模型框架，保留了主题模型中用户满意的部分，重新学习了用户不满意的词语。
3）最后，作者使用了实际数据来检验模型的有效性。

#####基于树的主题模型
LDA虽然可以找出主题的词分布，但是它并不知道每一个单词的含义。单词只是从一个多项式分布中抽取的结果。由于LDA只是发现文档级别的词共现信息，所以它缺少发现语义或者语法上的含义的能力。为了解决这个问题，可以使用基于树结构的分布。树是一种非常好的编码词典信息的结构。作者借助Andrzejewski的工作，使用树结构来整合两种信息，即话题内部具有相关性的词语和不相关的词语。作者将每个主题下的多项式分布换成了树结构的分布，从而在树种产生了一组多项式分布的集合。其每个叶子节点是一个单词，每个单词至少出现在一个叶子节点中。当该树结构只有一个中心店，其他所有的V个单词都是叶子节点的时候，那么它就和经典LDA是一回事了。这种情况下，产生一个单词也很简单，就是$w\_{d,n} \sim \text{Mult}(\pi\_{z\_{d,n}},root)$

![](http://www.datalearner.com/resources/blog_images/5ee361ed-4ca8-437e-bd3a-f909e20feac7.png)

现在让我们看一个非退化的例子。为了从主题k中产生单词$w\_{d,n}$。我们从一个树的路径$l\_{d,n}$出发，它是一个从根节点出发的节点列表：我们从根节点$l\_{d,n}$出发，选择一个子节点$l\_{d,n}[1]$，我们按照这种情况继续选择子节点$l\_{d,n}[i] \sim \text{Mult}(\pi\_{k,l\_{d,n}}[i-1])$直到叶子节点。然后选择叶子节点的单词。这个沿着树寻找的步骤，我们用来替换之前从一个主题中抽取一个单词的过程。剩下的过程就与经典的LDA是一样的了。
![](http://www.datalearner.com/resources/blog_images/34c7918b-07b1-4e15-b397-4bc90a6e5e71.png)

我们简单说一下如何把用户反馈的单词相关性整合到树结构中。首先，任何不包含重复单词的相关性很容易变成树的结构。假设经典LDA的对称先验，所有的单词都是根节点的子节点，如图2所示。为了编码一个相关性，我们可以把所有相关的单词替换成一个新的子节点的根，把相关的单词都变成这个根的子节点。图2描述了如何把“constitution”和“president”的正相关放到一起的。
如果不同的相关性中有相同的单词，那么我们就把他们分开并分别放到新的节点中。对于编码负相关的单词，作者使用了相关图的只是，将每个单词用一个负向边和一个节点相连接。具体我们就不说了。
最后，作者改进的是SPARSELDA，用来加速推断其结果。这里也就不提了。

作者的实验也很有意思，作者并没有直接比较交互式LDA的指标。而是让一些未经训练的人通过使用两种不同的系统来回答问题，用以比较哪个系统好，哪个系统差。

赏

支付宝扫码打赏

如果文章对您有帮助，欢迎打赏鼓励作者