双曲知识嵌入：如何将知识“融合”带入新空间？-白红宇

双曲知识嵌入：如何将知识“融合”带入新空间？

阅读量：2242 次

发布时间：2019-05-09

本文共 4089 字，大约阅读时间需要 13 分钟。

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

知识图谱作为人类知识的结构化数据，是构建人工智能的基石。然而目前的知识图谱都是不完备的，所以需要将多个知识图谱融合以获得更完备的知识库。基于表示学习的知识关联作为知识图谱融合的新方法受到了许多关注。但知识关联模型面临着参数多、复杂性高、知识图谱维数不一致等问题。如何解决这些问题呢？

本期AI TIME PhD直播间，我们邀请到了南京大学计算机系博士研究生孙泽群分享他的观点。他提出将知识图谱的表示空间从欧式空间转换为双曲空间，提出了基于双曲空间的知识关联方法。

孙泽群：南京大学计算机系博士研究生，导师是瞿裕忠教授和胡伟副教授。主要研究方向为知识图谱表示学习及其应用，如实体对齐、链接预测和类型推断等。目前在相关领域的国际会议如VLDB、ICML、AAAI、IJCAI、EMNLP、ISWC等发表多篇论文。

一、背景

1. 什么是知识图谱？

知识图谱通过多关系图的结构来存储和表示现实世界的事实或知识。如图1所示，图的节点代表实体或概念，而节点之间的有向边带有标签来说明边的具体类型（也称为关系）。知识图谱分为实体知识图谱和概念知识图谱（本体）。实体图谱存储不同实体（或者叫实例）之间的关系，下图右边展示了一个例子，即实体Bob对实体蒙娜丽莎很感兴趣。而概念图谱则刻画了不同概念之间的关系，比如歌手属于艺术家。

图1：实体图谱和概念图谱

2. 为何要做知识关联？

知识图谱大多由人工构建，或者是对非结构化和半结构化数据进行信息抽取而构建的，由于数据来源的不完备性，知识图谱也是不完备的。比如，百度百科和维基百科会有重合的部分，也会有互补的部分，二者融合起来可以提供更加全面的知识。通过挖掘知识图谱之间的一些关联信息，将多个知识图谱融合在一起，就是知识关联。

3. 如何实现知识关联？

知识关联包括两个任务，即实体对齐（entity alignment）和类型推断（type inference）。实体对齐旨在将两个实体图谱中共指的实体连接起来（图2中双虚线）。类型推断则是关联实体图谱和概念图谱，挖掘实体到其所属概念之间的关联（图2中虚线）。

图2：实体对齐和类型推断

二、知识关联模型

如图3所示，为了实现知识关联，首先需要进行表示学习（embedding learning），将知识图谱嵌入到向量空间中，之后再进行关联学习（association learning），实现上面提到的实体对齐或类型推断任务。

图3：嵌入学习和关联学习

1.表示学习（Embedding learning）

Embedding方法的关键就是表示学习，将每个实体用低维向量表示。知识图谱表示学习大致可以分为两大类方法，一类基于图结构和关系，另一类还会利用一些额外信息，如实体属性等。TransE作为一个经典的知识图谱嵌入模型，其核心思想就是让有相同关系的实体对的向量偏移尽可能相同。比如，要表示中国首都是北京，那么需要让“中国”向量加上“首都”向量近似等于“北京”向量。

图4：TransE模型

图神经网络由于其强大的表示学习能力，近些年被广泛使用。GCN是一个比较经典的图神经网络模型。GCN有两部分操作，首先进行邻居聚合（neighborhood aggregation），将节点i的邻居进行聚合得到邻居表示。之后再将邻居表示和节点i自身的表示组合起来，得到节点i在这一层的最终表示。但是GCN没有考虑图中边的方向与类型，只要两个节点之间有边，那么它们就是邻居，而不区分中心节点与邻居的具体关系。R-GCN针对这个问题做了改进，R-GCN考虑节点之间的关系，对于每一个关系做一个邻居聚合，最后把这些邻居表示再组合起来。比如一个知识图谱图有k个关系，R-GCN的聚合方式类似于把这个图谱按照关系拆成了 k个无向的或者说是不带类型的图，分别聚合，最后再组合起来，但是这样做复杂度很高。

图5：图神经网络模型

2.关联学习（Association learning）

关联学习的方法则是通过监督学习或半监督学习完成的。监督学习需要已知部分关联数据比如部分实体对齐数据作为training data，目标是找出剩下的关联部分。但在现实场景中，关联学习中的监督数据却很少，有相关工作做过统计，在跨语言的维基百科中，只有10%~20%的共指页面有link。由于监督数据太少，半监督学习被引入来解决这个问题。

关联学习首先要度量节点之间的距离，比如实体x与实体y的距离。余弦相似度和欧式距离等都可以用来度量节点之间距离。之后如果要做实体对齐（类型关联同理），一个比较简单的方法就是最小化x和y间的距离。学习的时候为了区分对齐的正样本和不对齐的负样本，可以使用marginal rank loss或者limit-based loss。Marginal rank loss主要是让正样本和负样本之间有一定的距离，却无法控制距离的取值范围。而limit-based loss则可以控制距离的取值范围。

图6：关联学习

3.面临的挑战

有些知识图谱，尤其是概念图谱，具有很多层次化结构。在进行表示学习的时候，为了捕捉复杂或很深的层级结构，往往需要一个更大的空间和更高的维度来表示节点。此外，与实体对齐不同，类型推断处理的对象是实体图谱与概念图谱，由于实体数量远大于概念数量，这两个知识图谱的向量表示维数往往相差较大，基于距离最小化的方法不能适用于这种情况。

图7：面临的挑战

三、基于双曲空间的知识关联

面对上述挑战，讲者提出在双曲空间进行知识图谱表示学习。首先，双曲空间具有表达层次结构的能力，有利于表示知识图谱尤其是本体中的层次化结构。其次，双曲空间的容量要远远大于欧式空间，所以在双曲空间可以利用更少的维度来实现具有高维欧式空间同等表现力的模型。双曲空间的特性使我们能够使用很小的维数来捕捉知识图谱的结构，并且特别适合有层次结构的知识图谱。此外，现有的欧式空间模型都可以通过一些基本算子的转换变为双曲空间下表示的模型。