Modelling Relational Data using Bayesian Clustered Tensor Factorization论文简介及其笔记| 论文笔记好用的论文笔记工具

Modelling Relational Data using Bayesian Clustered Tensor Factorization

小木 NIPS 2009-09 1958 2017/04/24 10:27:12

[TOC]

#### 简介
学习关系数据是AI和统计数据分析领域一个非常重要的问题。AI的研究者认为，如果我们可以通过储存日常的关系事实，并可以从中产生出未观测到的关系命题，我们可能会得到一些基本的人类常识。比如，给定(杯子，用处，喝水)、(杯子，盛，果汁)、(杯子，盛，水)、(杯子，盛，咖啡)、(玻璃，盛，果汁)、(玻璃，盛，水)、(玻璃，盛，酒)，那么我可以推断得到命题(玻璃，用处，喝水)、(玻璃，盛，咖啡)、(杯子，盛，酒)。为这种关系数据建模对更多的直接应用也是比较重要的，包括社会网络、生物信息和协同过滤。

在这篇文章中，作者使用了一个概率模型来为所有可能的关系建立一个联合分布。这个分布是一个二元分布，即$T(a,r,b)\in \\{0,1\\}$，其中a和b是对象，r是关系，变量$T(a,r,b)$决定了这个关系(a,r,b)是否是事实。给定一组真实的关系$S=\\{(a,r,b)\\}$，模型需要预测一个新的关系$(a,r,b)$为真的概率为$P(T(a,r,b))=1|S$。

此外，除了预测新的关系，我们也想理解数据——即找出一小组可解释的规律来解释大规模这样的观测结果。通过引入一个简单假设的隐变量，关于隐变量的后验分布主要是集中在可能能观测到规律的数据上，这个规律的特性取决于模型。比如在无限关系模型（Infinite Relational Model，IRM）中，它将简单的规律表示成物体和关系的划分。为了确定关系$(a,r,b)$是否是有效的，IRM检查a,r,b所属的类别是否是相容的。IRM一个主要优点是可以从观测数据中抽取有意义的物体和关系的划分，从而极大的促进了解释数据分析的发展。

基于矩阵或者张量分解的模型在具有相同复杂度的情况下可以取得比解释模型更好的预测性能。分解模型会针对每个对象和关系学习一个分布，通过一个恰当的内积形式来进行预测。他们的优点是连续数据的优化，和很好的预测能力。然而，其潜在的隐藏的结构是很难分析的。

可解释性和预测能力之间很难调和：如果一个模型既有很好的解释性也有很好的预测能力是我们最希望的。作者为了解决这个问题，引入贝叶斯聚类张量分解（Bayesian Clustered Tensor Factorization,BCTF），它既有很好的预测能力，也有较好的解释性。特别的，与IRM类似，BCTF模型也会学习一个对象和关系的划分，一个关系$(a,r,b)$的真实性取决于他们各自所属的簇的相容性。同时，每个实体都有一个分布：每个对象$a$都被分解成两个向量$a\_L$和$a\_R$（一个是a在关系左侧时候的参数，一个是a在关系右侧时候的参数），关系r则是赋予一个矩阵$R$。给定一个分布表示，关系$(a,r,b)$的真实性由$a\_L^TRb_R$决定，同时对象的划分会倾向于一个簇会有相似的分布表示。

#### BCTF
我们从一个简单的张量分解模型开始。假设我们有一组有限的且固定的对象集合$O$和关系集合$R$。对于每个对象$a\in O$都包含两个对象$a_L,a_R \in R^d$（关系的左侧参数和右侧参数），对于每个关系$r$，都有一个矩阵$R \in R^{d\times d}$，其中d是模型的维度。给定这些参数（用$\theta$表示），模型根据分布$P(T(a,r,b)=1|\theta)=1/(1+\exp (-a\_L^TRb_R))$，独立的选择每个关系$(a,r,b)$的值。此外，给定一组已知的关系$S$，我们可以通过最大化一个惩罚似然$\log P(S|\theta)-Reg \theta$来学习参数。

接下来我们讨论一下先验分布。我们使用中餐馆过程（Chinese Restaurant Process）作为对象和关系的划分的先验。一旦划分确定后，每个簇都根据先验均值和先验协方差选择簇，然后使用该簇来产生样本向量$\\{a\_L,a\_R : a\in C\\}$。因此，属于同一个簇的对象会有相似的分布表示。当簇足够紧密的时候，$a\_L^TRb\_R$的值主要由a，r和b所属的簇决定。同时，分布的表示也具有一定的泛化能力，因为他们可以分等级的表示簇之间的相似性以及簇内物体之间的相似性。因此，给定一个关系集合，我们希望这个模型不仅可以发现物体和关系之间有意义的簇，也有预测分布的能力。

假设物体$O=\\{a\_1,\cdots,a\_N\\}$和关系$R=\\{r\_1,\cdots,r\_M\\}$，那么模型的定义如下：
```math
P(\text{obs},\theta,c,\alpha,\alpha_{DP})=P(\text{obs}|\theta,\sigma^2)P(\theta|c,\alpha)P(c|\alpha_{DP})P(\alpha_{DP},\alpha,\sigma^2)
```

在这里，观测数据obs是一个三元组集合和其真实值$\\{(a,r,b),t\\}$，变量$c=\\{c\_{obj},c\_{rel}\\}$是物体和关系所属的簇。变量$\theta=\\{a\_L,a\_R,R\\}$表示物体和关系的分布，$\\{\sigma^2,\alpha,\alpha\_{DP}\\}$是超参数。这两项的分布定义如下：
```math
P(obs|\theta)=\prod_{\{(a,r,b),t\}\in obs} \mathcal{N}(t|a_L^TRb_R,\sigma^2)
```
```math
P(c|\alpha_{DP})=CRP(c_{obj}|\alpha_{DP})CRP(c_{rel}|\alpha_{DP})
```

赏

支付宝扫码打赏

如果文章对您有帮助，欢迎打赏鼓励作者