数据学习
AI博客
原创AI博客
大模型技术博客
期刊会议
学术世界
期刊出版社
领域期刊
SCI/SCIE/SSCI/EI简介
期刊列表
会议列表
所有期刊分区
学术期刊信息检索
JCR期刊分区查询
CiteScore期刊分区查询
中科院期刊分区查询
管理 - UTD24期刊列表
管理 - AJG(ABS)期刊星级查询
管理 - FMS推荐期刊列表
计算机 - CCF推荐期刊会议列表
南大核心(CSSCI)
合工大小核心
合工大大核心
AI资源仓库
AI领域与任务
AI研究机构
AI学术期刊
AI论文快讯
AI数据集
AI开源工具
数据推荐
AI大模型
国产AI大模型生态全览
AI模型概览图
AI模型月报
AI基础大模型
AI大模型排行榜
大模型综合能力排行榜
大模型编程能力排行榜
OpenLLMLeaderboard中国站
AI大模型大全
在线聊天大模型列表
2023年度AI产品总结
Topic Modeling: Beyond Bag-of-Words
小木
ICML
2006-09
2084
2017/05/05 21:24:45
有一些文本模型使用n-gram统计,有些主题模型则使用“词袋”假设。在这篇文章中,作者将二者结合起来,提出了一个层次生成模型,将一元模型扩展为层次Dirichlet二元模型,既有n-gram的优点,也有隐主题变量的概念。作者的模型来源是两个,一个是MacKay和Peto在1995年发表的层次Dirichlet语言模型,这是一个二元语言模型。另一个是Blei在2003年提出的LDA模型。作者的模型基本原理与LDA相似。只是在某个单词的生成过程有区别。LDA每个单词的生成来源于主题词分布$\phi$,但是作者的模型中,单词的生成是由主题词分布和前一个单词共同决定,即: ```math p(w_t=i|w_{t-1}=j,z_t=k) ``` 这是有$WT(W-1)$个自由参数描述的,它们形成了一个矩阵$\Phi$,其行数是$WT$。$W$是词汇大小,$T$是单词数量。每一行是一个基于单词的分布,它描述某个情景下(即单词$j$和主题$k$情景)下的分布,表示为$\phi\_t$。每个主题$k$的生成过程和LDA完全一样。因此语料中单词和主题的联合分布为: ```math P(w,z|\Phi,\Theta)=\prod_i\prod_j\prod_k\prod_d \phi_{i|j,k}^{N_{i|j,k}} \theta_{k|d}^{N_{k|d}} ``` 因此,这个模型的生成过程如下: ------------ 1、对于每个单词$j$和主题$k$: (a)、从先验$\Phi$中抽取一个$\phi\_{j,k}$: 2、对于每个文档$d$: (a)、从$\text{Dirichlet}(\phi\_{j,k}|\beta\_km\_k)$中抽取主题分布$\theta\_d$ (b)、对于文档$d$中的每个单词$t$: Ⅰ、从主题分布中抽取一个主题$z\_t\sim \text{Discrete}(\theta\_d)$ Ⅱ、根据这个主题$z\_t$和之前的一个单词$w\_{t-1}$抽取一个单词$w\_t$ ------------
赏
支付宝扫码打赏
如果文章对您有帮助,欢迎打赏鼓励作者
Back to Top