登录
注册
原创博客
(current)
算法案例
(current)
技术进展
(current)
论文笔记
期刊会议
期刊列表
会议列表
期刊查询
核心期刊
南大核心(CSSCI)
中科院JCR期刊分区
AJG(ABS)星级期刊
合工大小核心
合工大大核心
数据推荐
工具推荐
网址导航
Point-of-Interest Recommendation in Location Based Social Networks with Topic and Location Awareness
Vanessa He
Proceedings of the 2013 SIAM International Conference on Data Mining
2013-09
1670
2017/05/16 17:40:36
近些年,基于位置的社交网络服务(Location Based Social Networks,**LBSN**)得到了迅速的发展,比如说国外的Foursquare、Facebook Place和Google Latitude,通过用户的签到经历和签到兴趣地点的评论,用户可以获得更好的兴趣点(Places-of-Interests,**POIs**)服务。以Foursquare为例,用户可以对POIs分类、打标签,用户也可以向其他人分享自己的签到地点经验,用户还可以了解到有多少用户访问过某个POIs和他们访问了多少时间。这样的兴趣点推荐(Point-of-Interests,**POI**)服务是很有意义的,对于POIs拥有者来说,他们可以获得更多的目标用户,而对于用户来说,他们可以获得更多相关的POIs,从而有更好的经历。 但是,POI推荐系统比传统的推荐系统的发展更为复杂,因为面临的挑战有以下方面: (1)对于POI推荐,用户的兴趣因不同时间、不同地点而动态变化着; (2)LBSN的用户行为具有时空相关性,而时空相关性数据的异质性对推荐来说是个较大的挑战; (3)POI通常和分类或标签相关联,然而与POIs相关联的文本信息通常是不完整且模棱两可的; (4)即使是具有相似或相同语义主题的POIs,也因为所处的不同区域而有不同的排序结果。 于是,本文研究首先为POI推荐提出了一个主题和位置的感知方法,这个方法可以有效发现与POIs相关的文本信息(textual information),并且还融入了上下文环境信息(context aware information)。然后,本文基于学习用户、POI主题分布和位置信息为POIs推荐建立了基于主题和位置的概率矩阵分解模型(Topic and Location-aware probabilistic matrix factorization,**TL-PMF**)。 下面来具体看一下研究内容: #### **一、问题描述** 历史签到记录R
M×N
表示M个基于位置的社交网络用户U={u
1
,u
2
,...,u
M
}和N个POIs(兴趣点)C={c
1
,c
2
,...,c
N
},其中的r
ij
表示用户u
i
在POIs(兴趣点)签到的次数(此处可以类比商品评分)。另外,本文假定r
ij
被两个因素影响:(1)鉴于主题,考虑POIs的兴趣和用户兴趣的匹配程度(2)POI的口碑意见(尤其是流行度分数)的区域水平。 对于每一个POI,还有额外的配置信息,如位置信息、区域信息(尤其是城市和州的名称)、文本信息(尤其是种类和标签词,用于形容POI的词)和POI兴趣点c
j
的区域流行度分数(尤其是多少人与之有联系以及这些人到访该POI的次数)。 每一个POI兴趣点c
j
都有:d
c
j
,表示与POI兴趣点c
j
有关的文本items,包括标签和分类;d
u
i
,表示与用户到访过的POI兴趣点c
j
有关的文本items;P
c
j
:根据“总人数”和“总签到次数”而得到的POI兴趣点c
j
的流行度分数。另外,W={w
1
,w
2
,...,w
V
},表示所有与文本信息相关的V词集。 #### **二、用户和POI Profiling** ##### **1、主题提取** 主题提取的目的就是基于用户签到的POIs兴趣点的文本信息,学习用户的兴趣,尤其是主题分布情况。不像之前协同过滤的研究,仅仅依赖其他用户评分来推断给定用户对给定产品的评分,本文通过主题提取profile了用户和POI。潜在狄利克雷分配(LDA)模型是用来从大量文本集中区分潜在主题信息的流行方法。在LDA中,每个文本被表示成主题的概率分布,而每一个主题被表示成许多词的概率分布。 模型中有两个可以从数据中推断出来的参数: (1)文本-主题分布θ; (2)主题-词分布Φ。 为了通过LDA来提取用户感兴趣的主题,本文将所有用户签到过的POIs兴趣点文本集成成一个用户文本d
u
i
,因此,d
u
i
的主题可以代表用户u
i
的兴趣主题。由此来看,本文构建的**集成LDA模型**如下:  每个文档对应一个基于位置的社交网络用户。文档d
u
i
的主题分布代表u
i
的兴趣。每个用户的主题都和某个多项式分布有关,表示成θ。每个兴趣主题的文本词都和某个多项式分布有关,表示成Φ。**兴趣主题的生成过程**如下:  其中,(1)矩阵θ
M×K
中M表示用户数,K表示主题数,θ
ij
表示用户i对主题t
j
感兴趣的概率;(2)矩阵Φ
K×V
中K表示主题数,V表示数据集中独特术语词数,Φ
i
表示包含V个术语词的主题i的概率分布。 另外,我们可以通过学习到的用户-主题-词分布Φ
K×V
,推断出POI兴趣点c
j
的主题分布π
j
。因此,这样我们便可以来计算主题相似性。 ##### **2、参数学习模型** 如图1所示,基于超参数θ和Φ,M个用户文档的模型概率如下:  显而易见,模型参数θ和Φ的估计是很难计算的。在参数估计中,我们需要重点关注Φ
K×V
矩阵(word by topic))和θ
M×K
矩阵(user by topic),因为通过这两个矩阵,我们可以通过吉布斯(Gibbs)抽样评估出主题-词分布和用户-主题分布。为此, (1)首先,先抽样隐变量z的条件分布,其中,表示不属于相应的文档或主题的术语词i的数量;同时,通过抽样结果,我们可以通过和来估计θ和Φ,其中,n
k
(w)
表示主题k下词频,n
i
(k)
表示用户u
i
的文档d
u
i
的主题数,V是词总数,K是主题数,α和β是两个事先设定好的对称先验。 (2)然后,基于训练好的模型M:{θ,Φ}和超参数α、β,推断具有文档d
c
j
的一个POI的主题分布p(π
j
|d
c
j
,M).和上面的参数估计类似,我们依旧使用吉布斯(Gibbs)抽样方法来获得每一个POI的主题分布。所以,吉布斯(Gibbs)抽样的全条件分布是;那么,POI文档d
c
j
的主题分布便是,其中,n
j
(k)
表示POI文档d
c
j
的主题数。 ##### **3、兴趣匹配得分** 在获得用户和POI的兴趣(尤其是主题分布)之后,我们可以通过计算出匹配得分来表示POI兴趣和用户的个性化兴趣的匹配程度。用户u
j
和POI的c
j
的匹配得分被定义为用户兴趣主题分布θ
i
和POI的主题分布π
j
的相似度,用对称JSD(Jensen-Shannon divergence)来计算:。这里的和是KL距离(Kullback-Leibler distance)。然后,定义匹配得分为。 #### **三、TL-PMF模型(A Topic and Location Aware Probabilistic Matrix Factorization)** 因为POI推荐是个性化的、位置相关的和依赖文本信息的,因此,本文介绍了一种考虑了用户兴趣与POI兴趣的匹配程度和POI口碑评分的主题和位置感知的概率矩阵分解模型(TL-PMF)。 ##### **1、基于位置的社交网络中主题和位置感知的POI推荐** 除了有POI文本信息和口碑性信息之外,我们还有基于位置社交网络用户的历史签到记录,构建成用户-POI矩阵,矩阵中的r
ij
表示用户到访某POI的次数,这个矩阵同样可以应用于二元关系变量中,r
ij
=0表示用户没去过某POI,反之r
ij
=1表示用户到访过某POI。本文中将r
ij
视为用户u
i
对POI兴趣点c
j
的评分,这一评分一方面反映出POI主题和用户兴趣主题的匹配程度,另一方面反映出本地区口碑意见水平P
j
。 于是,我们定义了用户u
i
对POI兴趣点c
j
的主题和位置影响力指数如下:。其中,S(u
i
,c
j
)表示用户u
i
与POI兴趣点c
j
间主题分布θ
i
和π
j
的匹配得分。 ##### **2、TL-PMF模型** TL-PMF模型的图模型如下:  其中,r
ij
表示用户u
i
对POI兴趣点c
j
的评分,U
i
和C
j
分别表示用户和POI的隐特征向量。 观测评分的分布如下: 。。。。。。。(1) 其中,表示均值为μ、方差为σ
2
的高斯分布,I
ij
是指示函数。函数表示用户u
i
对POI兴趣点c
j
的评分估计,具体计算如下:,其中,U
i
和C
j
表示用户和POI的D维隐向量,TL
ij
表示用户U
i
对POI C
j
的主题和位置指示值。 本文设定用户和POI隐空间的高斯先验均值为0:和。这样一来,公式(1)的后验分布则变成:  于是,我们需要通过最大化概率来估计参数,对后验分布取log对数之后:  其中,D表示隐向量的维度。 最大化log后验分布也就等同于最小化下面的函数:  其中,、、是F范数。最小化这一函数就是通过随机梯度下降的方法实现的。 ##### **3、预测和推荐** 当用户兴趣主题和参数U、C都被学习到之后,给定一个POI,通过来预测用户的评分,其中γ用来调整匹配分数和区域流行度分数的权重。 因为LBSNs下的推荐对位置是十分敏感的,推荐列表信息应该是在用户目前所处位置附近。本文的TL-PMF模型提供了全部的预测偏好得分,于是在实际中,给定用户位置L
u
i
,在一定范围Range
L
u
i
内,考虑top N预测得分来进行n个推荐。
赏
支付宝扫码打赏
如果文章对您有帮助,欢迎打赏鼓励作者
Back to Top