数据学习
AI博客
原创AI博客
大模型技术博客
期刊会议
学术世界
期刊出版社
领域期刊
SCI/SCIE/SSCI/EI简介
期刊列表
会议列表
所有期刊分区
学术期刊信息检索
JCR期刊分区查询
CiteScore期刊分区查询
中科院期刊分区查询
管理 - UTD24期刊列表
管理 - AJG(ABS)期刊星级查询
管理 - FMS推荐期刊列表
计算机 - CCF推荐期刊会议列表
南大核心(CSSCI)
合工大小核心
合工大大核心
AI资源仓库
AI领域与任务
AI研究机构
AI学术期刊
AI论文快讯
AI数据集
AI开源工具
数据推荐
AI大模型
国产AI大模型生态全览
AI模型概览图
AI模型月报
AI基础大模型
AI大模型排行榜
大模型综合能力排行榜
大模型编程能力排行榜
OpenLLMLeaderboard中国站
AI大模型大全
在线聊天大模型列表
2023年度AI产品总结
What Your Images Reveal- Exploiting Visual Contents for Point-of-Interest Recommendation
Vanessa He
WWW '17 Proceedings of the 26th International Conference on World Wide Web
2017-04
3842
2017/04/13 15:05:02
目前现有的POI推荐方法主要聚焦在四个方面:时序模式temporal patterns, 地理位置影响geographical influence, 社交相关性social correlations 和 文本内容显示textual content indications。然而,却很少有POI推荐方法研究是针对图像的。于是,本文就是研究通过图像内容来提高POI推荐的问题。但是,利用图像内容研究POI推荐,面临两个挑战:(1)如何从图像中抽取有用的可视化内容?(2)如何将可视化图像内容用进POI推荐中?为此,本文提出了一个新的提高POI推荐的图像内容框架(a new framework Visual Content Enhanced POI recommendation,**VPOI**)。 本文主要研究贡献: (1)利用可视化图像内容来研究提高POI推荐的问题; (2)提出一个新推荐系统,将图像可视化内容融入概率模型中,用于学习用户和POI隐特征; (3)在真实数据集上实验证明了提出的框架的有效性。 ### **一、一种利用可视化内容提高POI推荐的系统** 问题描述:给定签到矩阵R、用户图像Þ
u
i
(i=1,2...n)和POI图像Þ
l
j
(j=1,2...m),目标是向每个用户推荐K个未被访问的POIs。其中,R是用R
ij
=g(X
ij
)表示的X的标准化形式,X表示用户-POI签到矩阵,X
ij
表示用户u
i
在l
j
的签到频率,Þ
u
i
表示用户u
i
上传的图像集,Þ
l
j
表示被标注标签l
j
的图像集。 #### **1、基本POI推荐模型** 本文选择概率矩阵分解(Probabilistic Matrix Factorization,PMF)作为POI推荐的基本模型。该模型假定观测数据的残余噪音服从高斯分布,即似然函数: ![](http://www.datalearner.com/resources/blog_images/294add46-c68b-4930-b405-e98ce62d3070.png) 其中,U和V分别表示用户和POIs的隐特征矩阵,Ν(x|μ,σ
2
)表示均值为μ、方差为σ
2
的高斯分布,Y是指示函数,如果R
ij
>0,则Y
ij
=1,反之为0。 PFM设定隐向量U和V的高斯先验:![](http://www.datalearner.com/resources/blog_images/3cef062e-faa9-4e14-9a83-0a684d0c2ff1.png)和![](http://www.datalearner.com/resources/blog_images/1fb7cf3d-3cd1-4d73-b748-85076dedb8f7.png)![](http://www.datalearner.com/resources/blog_images/3410983d-2757-4b52-bdfe-8b01804b9cc8.png)。其中,σ
u
2
和σ
v
2
是两个高斯分布的方差,I是单位矩阵。 于是,后验分布就可以表示如下: ![](http://www.datalearner.com/resources/blog_images/373fd74d-fd7e-47e8-957f-26b563189427.png) #### **2、可视化图像内容提取与建模** 卷积神经网络(Convolutional neural network,CNN)是在图像分类和目标侦测方面抽取高层可视化内容的重要深度网络。因此,本文选择CNN来抽取图像特征,并且选择最先进的VGG16模型作为CNN架构。如下图所示,该模型有13个卷积层、5个pooling层、3个全连接层和1个softmax层,其输入是一个224×224×3的图像,224×224表示图像大小,3表示频道(如RGB频道)数;然后,卷积层之后最左边变成了224×224×64大小的特征图,最后一层是用户分类的softmax层。 ![](http://www.datalearner.com/resources/blog_images/7c1008aa-1c42-45f0-83c7-88c6a0440677.png) 本文去掉了最后两层用户分类的层,然后输入图像p
k
,最后输出维度d=4096的向量,表示成CNN(p
k
),因为CNN是一个特征学习函数,其权重将会在学习过程中不断更新。但是,实际中,我们使用预先训练好的VGG16和调整的CNN。这样的话,通过CNN抽取特征之后,接下来便是融合这些特征进行POI推荐。 **(1)从图像与用户之间关系来建模** 用户u
i
发表了图像p
s
,则认为图像p
s
中包含了能反映用户偏好的内容,同时,u
i
的偏好还被可区分的隐特征**u
i
**所描述。于是,定义p
s
属于u
i
的概率P(f
is
=1|u
i
,p
s
)如下: ![](http://www.datalearner.com/resources/blog_images/4bee9d54-8365-4900-b30d-37af0f5b8e12.png) 其中,P是可视化内容与隐用户特征之间的交互矩阵,通过最大化概率可使得**u
i
**通过交互矩阵P与可视化内容尽可能相似。这样的话,可视化内容可以指导**u
i
**的学习过程。 **(2)从图像与POI之间关系来建模** 与(1)相似,图像p
t
与地点l
j
有关系,则认为可视化内容p
t
更可能是用来描述POI地点l
j
。同样的,l
j
还被可区分的隐特征**v
j
**所描述。于是,定义p
t
属于l
j
的概率P(g
jt
=1|l
j
,p
t
)如下: ![](http://www.datalearner.com/resources/blog_images/af69cb42-a529-40a2-a58f-dea291b65d2f.png) 其中,Q是可视化内容与隐POI特征之间的交互矩阵,通过最大化概率可使得**v
j
**通过交互矩阵Q与可视化内容尽可能相似。这样的话,可视化内容可以指导**v
j
**的学习过程。 **(3)联合建模** 可视化内容建模的似然函数如下: ![](http://www.datalearner.com/resources/blog_images/455d69d3-284e-497c-a792-96dd04b7c4c1.png) 当然,P和Q的高斯先验![](http://www.datalearner.com/resources/blog_images/f1baac08-f8dd-43b5-8234-39abbb4caf83.png)和![](http://www.datalearner.com/resources/blog_images/0472b502-057e-4406-b2a2-c91610e09cae.png),其中,σ
p
2
和σ
q
2
是两个高斯分布的方差。 #### **3、VPOI框架** 通过公式(2)对用户-POI签到数据的建模和公式(5)对图像特征的建模,本文提出了VPOI的框架如下:![](http://www.datalearner.com/resources/blog_images/f12d4d08-9bd8-4b33-808b-85c280a9045a.png) 这里的后验分布计算过程如下: ![](http://www.datalearner.com/resources/blog_images/c015bc10-23a5-4138-be90-e809320bcc3b.png) 于是,最终的公式(6)的目标函数可以被写成: ![](http://www.datalearner.com/resources/blog_images/e981bcb7-1b52-461c-b249-230944fe6978.png) 其中,![](http://www.datalearner.com/resources/blog_images/8e0ac39e-87cb-4fd4-a9f7-5ac130ec5a7f.png),这样设定的目的是为了减少超参数,且α=2σ
2
。 而图模型表示如下: ![](http://www.datalearner.com/resources/blog_images/bf70a2f3-6dff-42d1-b8f6-5e771a01c85b.png) ### **二、一种优化框架** 这一部分主要是用来解决优化问题,主要使用梯度下降的方法来更新变量。 #### **1、负采样(Negative Sampling)** 因为P(f
ik
=1|u
i
,p
k
)和P(g
jk
=1|l
j
,p
k
)涉及到要计算Σ
p
k
∈Þ
exp(u
i
T
·**p**·CNN(p
k
)),而这个综合所有图像并计算操作较复杂,因此为了加快这一计算,本文使用负采样来近似P(f
ik
=1|u
i
,p
k
)和P(g
jk
=1|l
j
,p
k
)如下: ![](http://www.datalearner.com/resources/blog_images/967732dc-be7c-46fb-b1ee-14c3e62144c5.png) ![](http://www.datalearner.com/resources/blog_images/b18c0579-9225-4894-87a7-8c2c0183239e.png) 其中,p
k
是来自用户总图像集,而p
ks
不是用户发表的图像,p
kt
不是被标记上l
i
的图像,这样的负采样的核心含义就是为了使得用户u
i
和图像内容p
k
间相似性最大,而使得用户u
i
和图像内容p
ks
以及p
kt
间相似性最小。通过这样的负采样,梯度也被简化。 #### **2、更新规则** Γ表示公式(7)的目标函数。 **(1)更新U** ![](http://www.datalearner.com/resources/blog_images/913be41d-1abf-409b-81d4-c7bbd5bf815c.png) 其中,![](http://www.datalearner.com/resources/blog_images/e441ad15-3c97-45ce-9f00-2a1a6bca1570.png),第i个a
i
表示如下: ![](http://www.datalearner.com/resources/blog_images/efd50ab7-3542-4856-b878-ed9144e5052e.png) **(2)更新V** ![](http://www.datalearner.com/resources/blog_images/ceba03b2-e3c6-4933-ad34-d4b0c2f9af5a.png) 其中,![](http://www.datalearner.com/resources/blog_images/31267ed4-160c-46af-befd-d29cd3a3d4ef.png),第i个b
j
表示如下: ![](http://www.datalearner.com/resources/blog_images/fdfeeedc-694d-482b-b0ba-84356b1dfe1e.png) **(3)更新P和Q** ![](http://www.datalearner.com/resources/blog_images/b5c20418-a17b-47a1-a565-0256228c303b.png) 也就是表示成如下: ![](http://www.datalearner.com/resources/blog_images/6bff7def-3865-4500-bd54-4a97f9fa7821.png) 同理, ![](http://www.datalearner.com/resources/blog_images/072a33e4-1e92-4fd3-aba5-979281a38254.png) **(4)调整CNN** 为了更新CNN参数,我们固定U、V、P、Q,然后Γ对调整后的CNN权重集θ的偏导如下: ![](http://www.datalearner.com/resources/blog_images/f9fa6ea3-9329-411a-a2b1-97c80fab988b.png) 公式(14)中CNN的梯度可以通过BP(backpropagation)来计算。 #### **3、VPOI算法的学习** ![](http://www.datalearner.com/resources/blog_images/77189b3a-cbb5-4468-8fd5-c165df92a0cd.png)
赏
支付宝扫码打赏
如果文章对您有帮助,欢迎打赏鼓励作者
Back to Top