数据学习
AI博客
原创AI博客
大模型技术博客
期刊会议
学术世界
期刊出版社
领域期刊
SCI/SCIE/SSCI/EI简介
期刊列表
会议列表
所有期刊分区
学术期刊信息检索
JCR期刊分区查询
CiteScore期刊分区查询
中科院期刊分区查询
管理 - UTD24期刊列表
管理 - AJG(ABS)期刊星级查询
管理 - FMS推荐期刊列表
计算机 - CCF推荐期刊会议列表
南大核心(CSSCI)
合工大小核心
合工大大核心
AI资源仓库
AI领域与任务
AI研究机构
AI学术期刊
AI论文快讯
AI数据集
AI开源工具
数据推荐
AI大模型
国产AI大模型生态全览
AI模型概览图
AI模型月报
AI基础大模型
AI大模型排行榜
大模型综合能力排行榜
大模型编程能力排行榜
OpenLLMLeaderboard中国站
AI大模型大全
在线聊天大模型列表
2023年度AI产品总结
Point-of-Interest Recommendation in Location Based Social Networks with Topic and Location Awareness
Vanessa He
Proceedings of the 2013 SIAM International Conference on Data Mining
2013-09
2544
2017/05/16 17:40:36
近些年,基于位置的社交网络服务(Location Based Social Networks,**LBSN**)得到了迅速的发展,比如说国外的Foursquare、Facebook Place和Google Latitude,通过用户的签到经历和签到兴趣地点的评论,用户可以获得更好的兴趣点(Places-of-Interests,**POIs**)服务。以Foursquare为例,用户可以对POIs分类、打标签,用户也可以向其他人分享自己的签到地点经验,用户还可以了解到有多少用户访问过某个POIs和他们访问了多少时间。这样的兴趣点推荐(Point-of-Interests,**POI**)服务是很有意义的,对于POIs拥有者来说,他们可以获得更多的目标用户,而对于用户来说,他们可以获得更多相关的POIs,从而有更好的经历。 但是,POI推荐系统比传统的推荐系统的发展更为复杂,因为面临的挑战有以下方面: (1)对于POI推荐,用户的兴趣因不同时间、不同地点而动态变化着; (2)LBSN的用户行为具有时空相关性,而时空相关性数据的异质性对推荐来说是个较大的挑战; (3)POI通常和分类或标签相关联,然而与POIs相关联的文本信息通常是不完整且模棱两可的; (4)即使是具有相似或相同语义主题的POIs,也因为所处的不同区域而有不同的排序结果。 于是,本文研究首先为POI推荐提出了一个主题和位置的感知方法,这个方法可以有效发现与POIs相关的文本信息(textual information),并且还融入了上下文环境信息(context aware information)。然后,本文基于学习用户、POI主题分布和位置信息为POIs推荐建立了基于主题和位置的概率矩阵分解模型(Topic and Location-aware probabilistic matrix factorization,**TL-PMF**)。 下面来具体看一下研究内容: #### **一、问题描述** 历史签到记录R
M×N
表示M个基于位置的社交网络用户U={u
1
,u
2
,...,u
M
}和N个POIs(兴趣点)C={c
1
,c
2
,...,c
N
},其中的r
ij
表示用户u
i
在POIs(兴趣点)签到的次数(此处可以类比商品评分)。另外,本文假定r
ij
被两个因素影响:(1)鉴于主题,考虑POIs的兴趣和用户兴趣的匹配程度(2)POI的口碑意见(尤其是流行度分数)的区域水平。 对于每一个POI,还有额外的配置信息,如位置信息、区域信息(尤其是城市和州的名称)、文本信息(尤其是种类和标签词,用于形容POI的词)和POI兴趣点c
j
的区域流行度分数(尤其是多少人与之有联系以及这些人到访该POI的次数)。 每一个POI兴趣点c
j
都有:d
c
j
,表示与POI兴趣点c
j
有关的文本items,包括标签和分类;d
u
i
,表示与用户到访过的POI兴趣点c
j
有关的文本items;P
c
j
:根据“总人数”和“总签到次数”而得到的POI兴趣点c
j
的流行度分数。另外,W={w
1
,w
2
,...,w
V
},表示所有与文本信息相关的V词集。 #### **二、用户和POI Profiling** ##### **1、主题提取** 主题提取的目的就是基于用户签到的POIs兴趣点的文本信息,学习用户的兴趣,尤其是主题分布情况。不像之前协同过滤的研究,仅仅依赖其他用户评分来推断给定用户对给定产品的评分,本文通过主题提取profile了用户和POI。潜在狄利克雷分配(LDA)模型是用来从大量文本集中区分潜在主题信息的流行方法。在LDA中,每个文本被表示成主题的概率分布,而每一个主题被表示成许多词的概率分布。 模型中有两个可以从数据中推断出来的参数: (1)文本-主题分布θ; (2)主题-词分布Φ。 为了通过LDA来提取用户感兴趣的主题,本文将所有用户签到过的POIs兴趣点文本集成成一个用户文本d
u
i
,因此,d
u
i
的主题可以代表用户u
i
的兴趣主题。由此来看,本文构建的**集成LDA模型**如下: ![](http://www.datalearner.com/resources/blog_images/ad8c9587-9a82-4dcc-baf6-fb4430139a54.png) 每个文档对应一个基于位置的社交网络用户。文档d
u
i
的主题分布代表u
i
的兴趣。每个用户的主题都和某个多项式分布有关,表示成θ。每个兴趣主题的文本词都和某个多项式分布有关,表示成Φ。**兴趣主题的生成过程**如下: ![](http://www.datalearner.com/resources/blog_images/7e8fd969-a40d-4e33-9c67-5231715f88a6.png) 其中,(1)矩阵θ
M×K
中M表示用户数,K表示主题数,θ
ij
表示用户i对主题t
j
感兴趣的概率;(2)矩阵Φ
K×V
中K表示主题数,V表示数据集中独特术语词数,Φ
i
表示包含V个术语词的主题i的概率分布。 另外,我们可以通过学习到的用户-主题-词分布Φ
K×V
,推断出POI兴趣点c
j
的主题分布π
j
。因此,这样我们便可以来计算主题相似性。 ##### **2、参数学习模型** 如图1所示,基于超参数θ和Φ,M个用户文档的模型概率如下: ![](http://www.datalearner.com/resources/blog_images/2222abe9-8b7c-4aeb-a95d-de94bdb46a58.png) 显而易见,模型参数θ和Φ的估计是很难计算的。在参数估计中,我们需要重点关注Φ
K×V
矩阵(word by topic))和θ
M×K
矩阵(user by topic),因为通过这两个矩阵,我们可以通过吉布斯(Gibbs)抽样评估出主题-词分布和用户-主题分布。为此, (1)首先,先抽样隐变量z的条件分布![](http://www.datalearner.com/resources/blog_images/3b50d98d-0098-41e5-9bcb-50bb1411d700.png),其中,![](http://www.datalearner.com/resources/blog_images/5fb0ac0b-ba7b-491c-9e91-6f6ef1dc00b2.png)表示不属于相应的文档或主题的术语词i的数量;同时,通过抽样结果,我们可以通过![](http://www.datalearner.com/resources/blog_images/f1463434-cf5f-4dc4-9770-266d0f381e6f.png)和![](http://www.datalearner.com/resources/blog_images/2619a86e-c744-4a64-900d-487f55866e4e.png)来估计θ和Φ,其中,n
k
(w)
表示主题k下词频,n
i
(k)
表示用户u
i
的文档d
u
i
的主题数,V是词总数,K是主题数,α和β是两个事先设定好的对称先验。 (2)然后,基于训练好的模型M:{θ,Φ}和超参数α、β,推断具有文档d
c
j
的一个POI的主题分布p(π
j
|d
c
j
,M).和上面的参数估计类似,我们依旧使用吉布斯(Gibbs)抽样方法来获得每一个POI的主题分布。所以,吉布斯(Gibbs)抽样的全条件分布是![](http://www.datalearner.com/resources/blog_images/a3d320bc-cbfa-49b2-8194-cbafdacad422.png);那么,POI文档d
c
j
的主题分布便是![](http://www.datalearner.com/resources/blog_images/c60a0476-7671-4b4e-9e78-832c516c78d6.png)![](http://www.datalearner.com/resources/blog_images/19d52905-08ce-48cd-ab53-ff8450dd3c88.png),其中,n
j
(k)
表示POI文档d
c
j
的主题数。 ##### **3、兴趣匹配得分** 在获得用户和POI的兴趣(尤其是主题分布)之后,我们可以通过计算出匹配得分来表示POI兴趣和用户的个性化兴趣的匹配程度。用户u
j
和POI的c
j
的匹配得分被定义为用户兴趣主题分布θ
i
和POI的主题分布π
j
的相似度,用对称JSD(Jensen-Shannon divergence)来计算:![](http://www.datalearner.com/resources/blog_images/4f2f5bff-1c8e-4457-a16a-59328cac0d33.png)。这里的![](http://www.datalearner.com/resources/blog_images/e30c432c-5b7b-48fd-a906-fd4f2309bd79.png)和![](http://www.datalearner.com/resources/blog_images/6115afb6-c4c2-41f3-b9a5-2d63704e0742.png)是KL距离(Kullback-Leibler distance)。然后,定义匹配得分为![](http://www.datalearner.com/resources/blog_images/e8c38ef7-f348-4c31-8643-b8b289fc731a.png)。 #### **三、TL-PMF模型(A Topic and Location Aware Probabilistic Matrix Factorization)** 因为POI推荐是个性化的、位置相关的和依赖文本信息的,因此,本文介绍了一种考虑了用户兴趣与POI兴趣的匹配程度和POI口碑评分的主题和位置感知的概率矩阵分解模型(TL-PMF)。 ##### **1、基于位置的社交网络中主题和位置感知的POI推荐** 除了有POI文本信息和口碑性信息之外,我们还有基于位置社交网络用户的历史签到记录,构建成用户-POI矩阵,矩阵中的r
ij
表示用户到访某POI的次数,这个矩阵同样可以应用于二元关系变量中,r
ij
=0表示用户没去过某POI,反之r
ij
=1表示用户到访过某POI。本文中将r
ij
视为用户u
i
对POI兴趣点c
j
的评分,这一评分一方面反映出POI主题和用户兴趣主题的匹配程度,另一方面反映出本地区口碑意见水平P
j
。 于是,我们定义了用户u
i
对POI兴趣点c
j
的主题和位置影响力指数如下:![](http://www.datalearner.com/resources/blog_images/3b459062-deaa-4f72-9940-099a7b97626a.png)。其中,S(u
i
,c
j
)表示用户u
i
与POI兴趣点c
j
间主题分布θ
i
和π
j
的匹配得分。 ##### **2、TL-PMF模型** TL-PMF模型的图模型如下: ![](http://www.datalearner.com/resources/blog_images/4873e411-47b3-4053-a9d3-03769e6bf768.png) 其中,r
ij
表示用户u
i
对POI兴趣点c
j
的评分,U
i
和C
j
分别表示用户和POI的隐特征向量。 观测评分的分布如下: ![](http://www.datalearner.com/resources/blog_images/e36cb974-b2e0-42e6-9021-2c9d488e8f09.png)。。。。。。。(1) 其中,![](http://www.datalearner.com/resources/blog_images/13113c83-3301-4faf-8723-42a08e141187.png)表示均值为μ、方差为σ
2
的高斯分布,I
ij
是指示函数。函数![](http://www.datalearner.com/resources/blog_images/314ff139-dfae-4e2e-9d38-a694cbc5a4c6.png)表示用户u
i
对POI兴趣点c
j
的评分估计,具体计算如下:![](http://www.datalearner.com/resources/blog_images/5becc439-c758-4b1f-a0a0-62db5a832565.png),其中,U
i
和C
j
表示用户和POI的D维隐向量,TL
ij
表示用户U
i
对POI C
j
的主题和位置指示值。 本文设定用户和POI隐空间的高斯先验均值为0:![](http://www.datalearner.com/resources/blog_images/2f1f744b-f322-4828-ba40-7aab3ffc469a.png)和![](http://www.datalearner.com/resources/blog_images/05c9d355-fb06-47ad-ad6d-875ccc23f2d7.png)。这样一来,公式(1)的后验分布则变成: ![](http://www.datalearner.com/resources/blog_images/bb9db69c-e4d9-426d-9fd5-7bfd7cc8c767.png) 于是,我们需要通过最大化概率来估计参数,对后验分布取log对数之后: ![](http://www.datalearner.com/resources/blog_images/91240547-41aa-4731-9c69-0d6fe0027de8.png) 其中,D表示隐向量的维度。 最大化log后验分布也就等同于最小化下面的函数: ![](http://www.datalearner.com/resources/blog_images/d42bb120-70f1-4ed5-9859-de21871d10b1.png) 其中,![](http://www.datalearner.com/resources/blog_images/26c9ceb4-a66b-45c7-8e7b-7e986796e156.png)、![](http://www.datalearner.com/resources/blog_images/c81bd4c0-4294-470f-aa70-7e9aec296410.png)、![](http://www.datalearner.com/resources/blog_images/551ca3ea-12a0-4c44-bf98-d4bf38319e7d.png)是F范数。最小化这一函数就是通过随机梯度下降的方法实现的。 ##### **3、预测和推荐** 当用户兴趣主题和参数U、C都被学习到之后,给定一个POI,通过![](http://www.datalearner.com/resources/blog_images/df70f649-ed92-4636-93bd-786425cec62e.png)![](http://www.datalearner.com/resources/blog_images/e9869e0b-adc7-4f4a-94ed-a20c318756be.png)来预测用户的评分,其中γ用来调整匹配分数和区域流行度分数的权重。 因为LBSNs下的推荐对位置是十分敏感的,推荐列表信息应该是在用户目前所处位置附近。本文的TL-PMF模型提供了全部的预测偏好得分,于是在实际中,给定用户位置L
u
i
,在一定范围Range
L
u
i
内,考虑top N预测得分来进行n个推荐。
赏
支付宝扫码打赏
如果文章对您有帮助,欢迎打赏鼓励作者
Back to Top