数据学习
登录
注册
原创博客
期刊会议
学术世界
期刊出版社
领域期刊
SCI/SCIE/SSCI/EI简介
期刊列表
会议列表
所有期刊分区
学术期刊信息检索
JCR期刊分区查询
CiteScore期刊分区查询
中科院期刊分区查询
领域期刊分区
管理 - UTD24期刊列表
管理 - AJG(ABS)期刊星级查询
管理 - FMS推荐期刊列表
计算机 - CCF推荐期刊会议列表
高校期刊分区
南大核心(CSSCI)
合工大小核心
合工大大核心
AI资源仓库
AI领域与任务
AI研究机构
AI学术期刊
AI论文快讯
AI数据集
AI开源工具
AI模型
AI模型概览图
AI模型月报
AI基础大模型
AI预训练大模型
数据推荐
网址导航
我的网址导航
程序员必备网站
Targeted Topic Modeling for Focused Analysis(TTM的理解)
标签:
#主题模型#
时间:2017/05/08 21:39:00
作者:十七岁的雨季
[TOC] 本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com 内容可能有不到之处,欢迎交流。 未经本人,允许禁止转载。 我给原文作者发了几封邮件,询问一些程序及推理方面的疑问,原文作者都悉心回答了,再次表示衷心感谢。 #问题描述 这篇文章发表在16年ACM会议上,主要是对主题模型的改进。从文章的题目可以看出,该模型可以用来对关注点进行分析。Wang S, Chen Z, Fei G, et al. Targeted topic modeling for focused analysis[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2016: 1235-1244. 文本分析的首要任务是挖掘人们到底都谈论了哪些内容(主题),当然这里的挖掘是基于机器学习方面的算法。而主题模型是现在比较流行的一种挖掘用户关注主题的方法。利用主题模型,可以获得用户文档的主题分布以及每个主题对应的词分布。 但现有的主题模型,却存在以下问题: (1)**现有的主题模型都是针对整个数据集然后来发掘所有的主题**(full analysis on the entire corpus to discover all topics)。 (2)**利用整个语料发掘所有主题必然带来主题粗糙,难以理解的问题,并且很多主题并不是我们的目标**(generated topics are often too coarse and may not even be on target)。 举个例子(如下图所示):**有一个关于电子烟的tweets语料,基于该语料,利用主题模型,可以训练得到许多方面的主题。例如,获得若干关于健康的主题,获得若干个关于电子烟构造的主题,若干个关于电子烟监管的主题。然而,这些主题可能都不是我所真正关心的方面,我真正关心的是哪些主题是描述儿童的,即本文所说的targeted aspect。** ***这便是该篇文章最大的创新点,寻找指定方面的关注,也可以说是用户关注的主题。***  #问题定义 这篇文章的问题定义如下: 模型的输入是:文本语料C,关注的目标领域(这里用一系列的用户关注的关键词表示)。例如,上图中目标领域是children,那么对应的关键词可以包括{“children“kid”}。这里与普通LDA的输入部分,只是多了targeted aspect这部分内容。 模型的输出:与用户感兴趣部分有关的主题(不相关的都会过滤掉,与LDA最大的区别)。如下面的excel表格所示。   #最简单的实现方法 寻找用户关注部分相关的主题,能想到的最简单的办法是什么呢? **使用基本的LDA模型,寻找所有的主题对应的词分布,排序一下,获取高概率的词汇,然后再去找包含我们定义key word的主题。然而,这种结果并不令人满意。** 其原因如下: (1)用户并不知道所有的关键词,表示该主题。举个例子,如上面中的minors(未成年人)可能就不包含在用户自定义的关键词中。 (2)用户可能找不到相关主题。比如说,targeted aspect is weight represented by the keyword “weight" in camera reviews.”weight” 很少被人提及,但是“the lens is so heavy" or ”its battery is light"。所以,可能找不到weight的相关主题。 (3)尽管关键词经常出现,用户可能业没办法获取比较好的相关主题。原因是:(a)主题抑制。所关注的仅仅只是众多方面的一个方面。例如,所关注的是children这个方面,主题词像“children",”kids", “young" 都表现的信息量很少(2)词的入侵。关注的主题中,经常会出现非关注的主题词,使得关注的主题理解起来比较困难。 #作者提出的模型  作者提出的模型如上图所示。其生成过程可以描述如下:  其中,这里标红的部分是稀疏LDA的内容,如果感兴趣的话,可以关注一下两篇文章: (a)T. Lin, W. Tian, Q. Mei, and H. Cheng. The dual-sparse topic model: mining focused topics and focused terms in short text. In WWW, pages 539{550. ACM, 2014. (b)C. Wang and D. M. Blei. Decoupling sparsity and smoothness in the discrete hierarchical dirichlet process. In NIPS, pages 1982{1989, 2009. [30] H. Wang, Y. Lu, and C. Zhai. Latent aspect 这两篇文章都是使用spike-and-slab prior来控制稀疏性。那么为什么要控制稀疏性呢?这也是该篇文章的一个很重要的创新点。 **文章的一大亮点是通过引入relevance变量r来表示跟一片文档是否与指定方面相关(targeted aspects)。存在r=0,r=1两种情况,来判断文档是否与指定的方面相关。r=0表示文档与指定方面不相关,则由一个不相关的主题产生,这个不相关的主题对应的词几乎包含所有的词。r=1表示文档与指定方面相关,则这里的单词通过稀疏性产生,其每个主题包含的单词并不是全局单词。即该篇文章认为能够区分targeted aspect和non-targeted aspects的重要词汇是非常少的。** 关于模型的推理部分,本文还没有完全会推理。如果对推理感兴趣,可以去看原文。 #代码 该代码有作者提供,url链接为:https://github.com/shuaiwanghk/TTM
欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
相关博客
最热博客