知识图谱综述(2021.4)
论文标题: A Survey on Knowledge Graphs: Representation, Acquisition, and Applications
论文期刊: IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS, 2021
论文地址: https://arxiv.53yu.com/pdf/2002.00388.pdf%E2%80%8Barxiv.org
目录
- 知识图谱综述(2021.4)
- 摘要
- 1.简介
- 2.概述
- 3.知识表示学习(KRL)
- 3.1 表示空间
- 3.1.1 点空间
- 3.1.2 复向量空间
- 3.1.3 高斯分布
- 3.1.4 流形和群
- 3.2 评分函数
- 3.2.1 基于距离的评分函数
- 3.2.2 基于语义匹配的评分函数
- 3.3 编码模型
- 3.3.1 线性模型
- 3.3.2 因式分解
- 3.3.3 传统神经网络
- 3.3.4 卷积神经网络
- 3.3.5 循环神经网络
- 3.3.6 Transformer系列网络
- 3.3.7 图神经网络
- 3.4 嵌入辅助信息
- 3.4.1 文本描述
- 3.4.2 类型信息
- 3.4.3 视觉信息
- 3.4.4 不确定信息
- 3.1 表示空间
- 4.知识获取
- 4.1 知识图谱补全(KGC)
- 4.1.1 基于嵌入的方法
- 4.1.2 关系路径推理
- 4.1.3 基于强化学习的路径查找
- 4.1.4 基于规则的推理
- 4.1.5 元关系学习
- 4.1.6 三重分类
- 4.2 实体发现
- 4.2.1 实体识别
- 4.2.2 实体类型
- 4.2.3 实体消歧
- 4.2.4 实体对齐(EA)
- 4.3 关系提取
- 4.3.1 神经关系提取
- 4.3.2 注意力机制
- 4.3.3 图卷积网络(GCNs)
- 4.3.4 对抗训练
- 4.3.5 强化学习(RL)
- 4.3.6 其他进展
- 4.3.7 联合实体和关系提取
- 4.1 知识图谱补全(KGC)
- 5.时间知识图谱
- 5.1 时间信息嵌入
- 5.2 动态实体
- 5.3 时间关系依赖
- 5.4 时间逻辑推理
- 6.知识感知应用
- 6.1 语言表示学习
- 6.2 基于知识图谱的问答(KG-QA)
- 6.2.1 单事实QA
- 6.2.2 多跳推理
- 6.3 推荐系统
- 7.未来方向
- 7.1 复杂推理
- 7.2 统一框架
- 7.3 可解释性
- 7.4 可扩展性
- 7.5 知识聚合
- 7.6 自动构造和动态构造
- 7.6.1 自动构造
- 7.6.2 动态构造
摘要
人类知识提供了对世界的正式理解。表示实体之间结构关系的知识图谱已成为认知和人类智能领域日益流行的研究方向。在本次回顾中,我们对知识图谱进行了全面回顾,涵盖了以下总体研究主题:1)知识图谱表示学习,2)知识获取和完成,3)时间知识图谱,以及4)知识感知应用,并总结了最近的突破和展望方向,以便将来的研究。
我们针对这些主题提出了一个完整的分类和新的分类法。知识图谱嵌入从表示空间、评分函数、编码模型和辅助信息四个方面进行组织。对于知识获取,特别是知识图谱的完成,综述了嵌入方法、路径推理和逻辑规则推理。我们进一步探讨几个新兴话题
1.简介
知识图谱是事实的结构化表示,由实体、关系和语义描述组成。
- 实体可以是现实世界的对象和抽象概念
- 关系表示实体之间的关系,
- 语义是对实体的描述,它们的关系包含定义明确的类型和属性。
当知识图谱涉及到形式语义时,它可以作为对事实进行解释和推理的知识库。知识库和知识图谱的区别在于知识库由三元组(head,relation,tail)构成,而知识图谱类似于ER图,结点(node)表示实体,边(edge)表示关系。
2.概述
本文从四个方面回顾了知识图谱的研究: 知识表示学习(KRL)、知识获取、时间知识图谱和知识感知应用。
知识表示学习(KRL): 也称作知识图谱嵌入(KGE)、多关系学习和统计关系学习。目前基于知识图谱的研究的最新进展大多侧重于KRL,KRL的方法是将实体和关系映射到低维向量,同时捕获它们的语义。在本文中,对于知识表示学习(KRL),我们进一步将其划分为:
- 表示空间: 表示实体和关系。包括点态空间、流形、复向量空间、高斯分布和离散空间
- 评分函数: 衡量事实的合理性。评分指标通常分为基于距离和基于相似性匹配的评分函数
- 编码模型: 对事实的语义交互建立模型。编码模型目前的研究重点,包括线性/双线性模型、因子分解和神经网络
- 嵌入辅助信息: 外部信息。辅助信息主要是文本、视觉和类型信息。
知识获取: 知识获取旨在从非结构化文本和其他结构化或半结构化源中构建知识图谱,完成现有的知识图谱,发现和识别实体和关系。构建良好的大规模知识图谱可用于许多下游应用程序,并通过常识推理为知识感知模型提供支持。知识获取的主要任务包括KGC、实体识别和关系抽取等其他面向实体的获取任务。
具体的知识获取任务包括:
- 知识图谱补全(KGC): 用于扩展现有知识图谱
- 基于嵌入的排序
- 关系路径推理
- 逻辑规则推理
- 元关系学习
- 实体识别/获取/发现: 用于从文本中发现面向实体的新知识。具体的任务分为实体识别、消除歧义、实体类型、和实体对齐
- 关系提取: 用于从文本中发现面向关系的新知识。关系提取模型利用注意力机制、图卷积网(GCN)、对抗学习、强化学习、深度残差网络和迁移学习
- 知识图谱补全(KGC): 用于扩展现有知识图谱
时间知识图谱: 时间知识图谱包含用于表示学习的时间信息。分为四个研究领域:
- 时间嵌入
- 动态实体
- 时间关系依赖
- 时间逻辑推理
知识感知应用: 知识感知应用包含:
- 自然语言理解(NLU)
- 问答
- 推荐系统
- 各种现实世界任务
它们注入知识以改进表示学习。目前,知识感知模型的研究主要得益于异构信息、丰富的知识表示本体和知识表示语义,以及多语言知识的集成。
3.知识表示学习(KRL)
开发一个新的KRL模型是要回答以下四个问题: 1)选择哪个表示空间; 2)如何测量特定空间中元组的合理性; 3)使用哪种编码模型来建模关系交互; 4)是否利用辅助信息。
3.1 表示空间
表示学习的关键问题: 学习实体和关系的低维分布式嵌入
表示空间在编码实体的语义信息和捕获关系属性方面起着至关重要的作用。在开发表示学习模型时,应仔细选择和设计适当的表示空间,以匹配编码方法的性质并平衡表现力和计算复杂度。
常用方法: 实值点空间(包括向量、矩阵和张量空间)。同时也使用了其他类型的空间,如复向量空间、高斯空间和流形
3.1.1 点空间
点态欧氏空间被广泛应用于表示实体和关系,在向量或矩阵空间中投影关系嵌入,或捕获关系交互。
Trans类和NTN、HAKE均为基于距离的评价函数,而HolE和ANALOGY是基于语义匹配的评价函数。
TransE(Translating Embeddings for Modeling Multi-relational Data): TransE表示d维向量空间中的实体和关系,即 h , t , r ∈ Rd h,t,r∈R_dh,t,r∈Rd,并使嵌入遵循平移原则 h + r ≈ th+r≈th+r≈t
- 该模型的基本思想是使head向量和relation向量的和尽可能靠近tail向量。这里我们用L1/L2范数来衡量它们的靠近程度。
L1范数: 假设X是n维的特征X=( x 1, x 2, x 3⋅⋅⋅ x n)X=(x_1,x_2,x_3···x_n) X=(x1,x2,x3⋅⋅⋅xn),∣∣X∣ ∣ 1= ∑ i n ∣ xi∣||X||_1=\sum_i^n{|x_i|} ∣∣X∣∣1=∑in∣xi∣
L1损失函数: 也被称为最小绝对值偏差(LAD),绝对值损失函数(LAE)。总的说来,它是把目标值 y iy_i yi与估计值f( x i)f(x_i) f(xi)的绝对差值的总和最小化
L2范数: 假设X是n维的特征X=( x 1, x 2, x 3⋅⋅⋅ x n)X=(x_1,x_2,x_3···x_n) X=(x1,x2,x3⋅⋅⋅xn),∣∣X∣ ∣ 2=∑ i n x i 2 ||X||_2=\sqrt{\sum_i^n{x_i^2}} ∣∣X∣∣2=∑inxi2
L2范数损失函数: 也被称为最小平方误差(LSE)。它是把目标值 y iy_i yi与估计值f( x i)f(x_i) f(xi)的差值的平方和最小化。一般回归问题会使用此损失,因为采用平方形式个别异常离群点对次损失影响较大,所以L2对于异常样本比L1更加敏感,鲁棒性更差。 - TransE损失函数使用了负抽样(将head实体或tail实体替换为三元组中的随机实体)的max-margin函数,使用距离来表示得分。L(y, y ′)=max(0,margin−y+ y ′)L(y,y’)=max(0,margin-y+y’) L(y,y′)=max(0,margin−y+y′),其中y是正样本的得分,y’是负样本的得分,损失函数也可表示为L(h,r,t)=max(0, d pos − d neg +margin)L(h,r,t)=max(0,d_{pos}-d_{neg}+margin) L(h,r,t)=max(0,dpos−dneg+margin),其中d=∣∣(head+relation)−tail∣∣d=||(head+relation)-tail|| d=∣∣(head+relation)−tail∣∣,然后使损失函数值最小化。
- 但是这个模型只能处理一对一的关系,不适合一对多/多对一关系。例如,有两个知识(skytree,location,tokyo)和(gundam,location,tokyo)。经过训练,”sky tree”实体向量将非常接近”gundam”实体向量。但实际上它们没有这样的相似性
- 该模型的基本思想是使head向量和relation向量的和尽可能靠近tail向量。这里我们用L1/L2范数来衡量它们的靠近程度。
TransH(Knowledge Graph Embedding by Translating on Hyperplanes): TransH的目标是处理一对多/多对一/多对多关系,并且不增加模式的复杂性和训练难度,其基本思想是将关系解释为超平面上的转换操作。每个关系都有两个向量,超平面的范数向量(Wr)和超平面上的平移向量(dr)
TransR(Learning Entity and Relation Embeddings for Knowledge Graph Completion): TransR进一步为实体和关系引入了分离空间,以解决实体和关系的单一空间不足的问题。作者通过投影矩阵 M r ∈ R k × d Mr∈R^{k×d}Mr∈Rk×d把实体 ( h , t ∈ Rk)(h,t∈R^k)(h,t∈Rk)投影到关系空间 ( r ∈ Rd)(r∈R^d)(r∈Rd)
TransD: TransD通过投影向量 hp, tp, rp∈ Rn h_p,t_p,r_p∈R^nhp,tp,rp∈Rn构建动态映射矩阵 M r h= rphpT+ IM_{rh}=r_ph_p^T+IMrh=rphpT+I和 M r t= rptpT+ IM_{rt}=r_pt_p^T+IMrt=rptpT+I
NTN(Reasoning With Neural Tensor Networks for Knowledge Base Completion): NTN通过双向线性张量神经层跨越多个维度对实体进行建模。头部和尾部 hTM^th^T\hat{M}thTM^t之间的关系交互被当作为表示为 M^∈ R d × d × k \hat{M}∈R^{d×d×k}M^∈Rd×d×k的张量
HAKE(Learning Hierarchy-Aware Knowledge Graph Embeddings forLink Prediction): HAKE不使用笛卡尔坐标系,而是通过将实体映射到极坐标系来捕获语义层次,即实体分别在模数和相位部分嵌入 em∈ Rd e_m∈R^dem∈Rd和 ep∈ [ 0 , 2 π )d e_p∈[0,2π)^dep∈[0,2π)d。
HolE(Holographic Embeddings): 即全息嵌入,是使用普通向量空间的语义匹配模型。为了捕获关系数据中的有效交互并高效计算,HolE引入了嵌入的循环相关以学习组合表示,它可以解释为压缩张量积。通过将扰动全息合成算子定义为p(a,b,c)=(c◦a)*b(其中c是一个固定向量),使得扩展全息嵌入模型HolEx内插了HolE和全张量积方法。它可以看作是扰动空穴的线性级联。在频域中进行傅里叶变换的HolE可以视为复向量空间CompleEx的特例,它连接了全息嵌入和复杂嵌入。
ANALOGY(Analogical inference for multi-relational embeddings): 使用关系投影矩阵的语义匹配模型。ANALOGY专注于多关系推理,为关系数据的类比结构建模。它的评价函数定义为: fr( h , t ) = hTMrtf_r(h,t)=h^TM_rtfr(h,t)=hTMrt,其中关系矩阵在线性映射中被约束为正规矩阵以便类比推理,即 MrTMr= MrMrT M_r^TM_r=M_rM_r^TMrTMr=MrMrT
3.1.2 复向量空间
嵌入复杂向量空间可以有效地模拟不同的关系连接模式,尤其是对称/反对称模式。向量表示为实向量+虚向量,例如== h = R e ( h ) + i I m ( h )h=Re(h)+iIm(h)h=Re(h)+iIm(h)==
- ComplEx: CompleEx首先引入了复数向量空间,它可以捕获对称和反对称关系。厄米点积用于关系、头部和尾部共轭的合成
- RotatE: 受Euler恒等式== e iθ =cosθ+isinθe^{iθ}=cosθ+isinθ eiθ=cosθ+isinθ==的启发,RotatE提出了一种旋转模型,该模型将复杂空间中头部实体到尾部实体的旋转关系视为t=h◦r,其中”◦”表示元素级Hadmard乘积。旋转Hadmard乘积的引入让RotatE还可以捕获反演和合成模式以及对称性和反对称性
- QuatE: QuatE将复值空间扩展为超复数(h,t,r∈ H dh,t,r∈H^d h,t,r∈Hd)由有三个虚分量的四元数Q=a+b i ⃗+c j ⃗+d k ⃗Q=a+b\vec{i}+c\vec{j}+d\vec{k} Q=a+bi+cj+dk表示,其中四元数内积即哈密尔顿积h⊗r用作头实体和关系的组合运算符。QuatE使用哈密尔顿乘积来捕获实体和关系四维空间中潜在的内部依赖,并获得比RotatE更具表现力的旋转能力
3.1.3 高斯分布
高斯分布即正态分布,高斯嵌入可以表达实体和关系的不确定性,以及多关系语义。
- KG2E: 受高斯单词嵌入的启发,基于密度的嵌入模型KG2E引入高斯分布来处理实体和关系的(不)确定性。作者将实体和关系嵌入到多维高斯分布HH H ~ N( μ h, σ h 2)N(μ_h,σ^2_h) N(μh,σh2)和TT T ~ N( μ tz, σ t 2)N(μ_tz,σ^2_t) N(μtz,σt2)中。推导出的均值向量u表示实体和关系的位置,而协方差矩阵∑\sum ∑表示实体和关系的(不)确定性。高斯空间中的KG2E也使用基于平移距离的评分函数,KG2E使用两种评分方法,即不对称KL散度和对称期望似然
- TransG: TransG表示具有高斯分布的实体,而它进行高斯分布的混合用于关系嵌入,其中关系r的第m个分量平移向量表示为 u r,m =t−hu_{r,m}=t-h ur,m=t−h ~ N( u t− u h,( σ h 2+ σ t 2)E)N(u_t-u_h,(σ^2_h+σ^2_t)E) N(ut−uh,(σh2+σt2)E)
3.1.4 流形和群
流形和群通过放宽逐点嵌入,流形空间比逐点欧几里得空间具有优势
- 流形中的ManifoldE也使用基于平移距离的评分函数,ManifoldE的评分函数定义为 f r(h,t)=∣∣M(h,r,t)− D r 2∣ ∣ 2f_r(h,t)=||M(h,r,t)-D_r^2||^2 fr(h,t)=∣∣M(h,r,t)−Dr2∣∣2,其中M是流形函数, D rD_r Dr是关系特定的流形参数
3.2 评分函数
评分函数用于衡量事实的合理性,旨在学习函数Eθ(x)(参数为以x为输入的θ),并确保正类样本的分数高于负类样本。本文采用评分函数的术语进行统一。有两种典型的评分函数即基于距离和基于语义相似性的函数
3.2.1 基于距离的评分函数
- 基于距离的评分函数利用平移原理,最直观的方法就是计算实体的关系投影之间的欧氏距离,即L1范数: f r(h,t)=∣∣ M r,1 h− M r,2 t∣ ∣ L1 f_r(h,t)=||M_{r,1}h-M_{r,2}t||_{L1} fr(h,t)=∣∣Mr,1h−Mr,2t∣∣L1
- 更常用的基于平移的评价函数: TransE:假设h+r的附加嵌入应接近t的嵌入,并在L1或L2范数约束下将得分函数定义为 f r(h,t)=∣∣h+r−t∣ ∣L 1/ L 2 f_r(h,t)=||h+r-t||_{L_1/L_2} fr(h,t)=∣∣h+r−t∣∣L1/L2
- TransE变体和扩展
TransR,TransH,TransD同表示空间
TransA使用马氏距离实现自适应的度量学习
TransF和之前使用加法得分函数的方法不同,它放松了严格的平移,并使用点积 fr( h , t ) = ( h + r )Ttf_r(h,t)=(h+r)^Ttfr(h,t)=(h+r)Tt作为评价函数
ITransF是为了平衡头部和尾部的约束而进一步提出的一种灵活的平移评分函数。它通过稀疏注意向量学习关系和概念之间的关联,实现了隐藏概念的发现和统计强度的传递,评分函数定义为 fr( h , t ) = ∣ ∣ αrH⋅ D ⋅ h + r − αrT⋅ D ⋅ t ∣ ∣e f_r(h,t)=||α_r^H·D·h+r-α_r^T·D·t||_efr(h,t)=∣∣αrH⋅D⋅h+r−αrT⋅D⋅t∣∣e
其中D∈ R n×d×d D∈R^{n×d×d} D∈Rn×d×d是实体和关系的叠加概念投影矩阵。 α r H, α r T∈[0,1 ] nα^H_r,α^T_r∈[0,1]^n αrH,αrT∈[0,1]n是由稀疏softmax计算的注意向量
TransAt将关系注意力机制与平移嵌入相结合
TransMS通过非线性函数和线性偏差向量传递多向语义,评分函数为 fr( h , t ) = ∣ ∣ − t a n h ( t ◦ r ) ◦ h + r − t a n h ( h ◦ r ) ◦ t + α ⋅ ( h ◦ t ) ∣ ∣ e 1/2f_r(h,t)=||-tanh(t◦r)◦h+r-tanh(h◦r)◦t+α·(h◦t)||_{e_{1/2}}fr(h,t)=∣∣−tanh(t◦r)◦h+r−tanh(h◦r)◦t+α⋅(h◦t)∣∣e1/2
- 高斯空间中的KG2E也使用基于平移距离的评分函数,KG2E使用两种评分方法,即不对称KL散度和对称期望似然
- 流形中的ManifoldE也使用基于平移距离的评分函数,ManifoldE的评分函数定义为 f r(h,t)=∣∣M(h,r,t)− D r 2∣ ∣ 2f_r(h,t)=||M(h,r,t)-D_r^2||^2 fr(h,t)=∣∣M(h,r,t)−Dr2∣∣2,其中M是流形函数, D rD_r Dr是关系特定的流形参数
3.2.2 基于语义匹配的评分函数
基于语义匹配的评分函数通常计算语义相似度,采用组合算子。
HolE和ANALOGY同表示空间
SME建议在语义上匹配(h,r)和(r,t)实体关系对的单独组合。它的评分函数由两种匹配块定义:线性块和双线性块,即 fr( h , t ) = g l e f t( h , r )Tg r i g h t( r , t )f_r(h,t)=g_{left}(h,r)^Tg_{right}(r,t)fr(h,t)=gleft(h,r)Tgright(r,t),
其中, g l e f t( h , t ) = M l , 1hT+ M l , 2rT+ blT g_{left}(h,t)=M_{l,1}h^T+M_{l,2}r^T+b_l^Tgleft(h,t)=Ml,1hT+Ml,2rT+blT为线性匹配块定义; g l e d t( h , t ) = ( M l , 1hT) ◦ ( M l , 2rT) + blT g_{ledt}(h,t)=(M_{l,1}h^T)◦(M_{l,2}r^T)+b_l^Tgledt(h,t)=(Ml,1hT)◦(Ml,2rT)+blT为双线性匹配块定义。
DistMult通过将关系矩阵Mr限制为多关系表示学习的对角线,提出了一个简化的双线性公式,定义为 fr( h , t ) = hTd i a g ( Mr) tf_r(h,t)=h^Tdiag(M_r)tfr(h,t)=hTdiag(Mr)t
类比嵌入框架通过限制嵌入维数和评分函数,可以恢复或等价地获得DistMult、CompleEx和HolE等多个模型。
CrossE通过相互作用矩阵 C ∈ R nr× d C∈R^{n_r×d}C∈Rnr×d引入了交叉相互作用,用于模拟实体和关系之间的双向交互。通过查找交互矩阵 cr= xrTCc_r=x_r^TCcr=xrTC来获得关系特定的交互。通过将交互表示和匹配与尾部嵌入相结合,将评分函数定义为 f ( h , r , t ) = σ ( t a n h ( cr◦ h + cr◦ h ◦ r + b ) tT)f(h,r,t)=σ(tanh(c_r◦h+c_r◦h◦r+b)t^T)f(h,r,t)=σ(tanh(cr◦h+cr◦h◦r+b)tT)
TorusE: 具有组表示,同时法也遵循语义匹配原则,评分函数定义为: m i n ( [ h ] + [ r ] ) × [ t ]∣ ∣ x − y ∣ ∣i min_{([h]+[r])×[t]}||x-y||_imin([h]+[r])×[t]∣∣x−y∣∣i
DihEdral具有组表示,同时法也遵循语义匹配原则,通过将2L关系建模为组元素,DihEdral的评分函数定义为组成部分的总和: fr( h , t ) = hTR t = ∑ l = 1Lh ( l ) TR ( l )t ( l ) f_r(h,t)=h^TRt=\sum^L_{l=1}h^{(l)T}R^{(l)}t^{(l)}fr(h,t)=hTRt=∑l=1Lh(l)TR(l)t(l),(其中,关系矩阵R被定义为以块对角线形式,即 R ( l )∈ DK R^{(l)}∈D_KR(l)∈DK;而实体被嵌入到实值空间,即 h ( l )∈ R2, t ( l )∈ R2 h^{(l)}∈R^2,t^{(l)}∈R^2h(l)∈R2,t(l)∈R2
神经网络通过匹配实体和关系的语义相似性,用非线性神经激活和更复杂的网络结构对关系数据进行编码。
3.3 编码模型
编码模型,尤其是神经网络,在实体和关系的交互建模中起着至关重要的作用。双线性模型也备受关注,一些张量分解也可以看作是这一族。
本节介绍通过特定模型架构对实体和关系的交互进行编码的模型,包括线性/双线性模型、分解模型和神经网络。
线性模型通过将头部实体投影到靠近尾部实体的表示空间中,将关系表述为线性/双线性映射。
分解旨在将关系数据分解为低秩矩阵以进行表示学习。
神经网络通过匹配实体和关系的语义相似性,对具有非线性神经激活和更复杂网络结构的关系数据进行编码。
3.3.1 线性模型
线性/双线性模型通过将线性运算或双线性变换运算作为方程式来编码实体和关系的交互: gr( h , t ) = MrT(ht) g_r(h,t)=M_r^T\left(\begin{matrix} h \\ t \end{matrix}\right)gr(h,t)=MrT(ht)
多个线性模型的集成可以通过实验提高预测性能。
线性/双线性编码的规范方法包括:
- SE、SME、DistMult、ComplEx和ANALOGY同评分函数
- TransE虽然具有L2正则化的,但它的评分函数可以扩展为仅用一维向量进行线性变换的形式: ∣∣h+r−t∣ ∣ 2 2=2 r T(h−t)−2 h Tt+∣∣r∣ ∣ 2 2+∣∣h∣ ∣ 2 2+∣∣t∣ ∣ 2 2||h+r-t||_2^2=2r^T(h-t)-2h^Tt+||r||_2^2+||h||_2^2+||t||_2^2 ∣∣h+r−t∣∣22=2rT(h−t)−2hTt+∣∣r∣∣22+∣∣h∣∣22+∣∣t∣∣22
- SimplE引入了关系的逆,以解决规范Polyadia分解中实体向量的独立嵌入问题,并计算了(h,r,t)和(t,r−1,h)的平均规范Polyadia得分: f r(h,t)= 1 2(h◦rt+t◦ r ′t)f_r(h,t)=\frac{1}{2}(h◦rt+t◦r’t) fr(h,t)=21(h◦rt+t◦r′t),其中r’是反演关系的嵌入
4)双线性族中的嵌入模型,如RESCAL、DistMult、HolE和ComplEx,可以在一定的约束条件下从一个转换为另一个。
3.3.2 因式分解
因式分解方法将KRL模型表述为三向张量X分解。张量分解的一般原理可以表示为== X h r t≈ hTMrtX_{hrt}≈h^TM_rtXhrt≈hTMrt==,组合函数遵循语义匹配模式。
RESCAL是针对知识图谱张量的每个关系切片上提出的三向秩-r分解算法。对于m个关系的第k个关系,X的第k个切片被分解为== Xk≈ A RkAT X_k≈AR_kA^TXk≈ARkAT==
线性代数: 奇异值分解: 任何一个m×n的矩阵A都可以表示为:A= U m×mΣ m×nV n×n A=U_{m×m}Σ_{m×n}V_{n×n} A=Um×mΣm×nVn×n,特别的,当A为n×n的矩阵,则A=QΣ Q TA=QΣQ^T A=QΣQT,其中Q为n×n的正交矩阵,Σ是A的特征值降序排序对应的特征向量矩阵
LFM是一个双线性结构化潜在因子模型,它通过分解 Rk= ∑ d = 1dαikuiviT R_k=\sum^d_{d=1}α_i^ku_iv_i^TRk=∑d=1dαikuiviT来扩展RESCAL,以便有效地处理实体的属性。(即 A = U m × mΣ m × nV n × n= U m × m( ∑ d = 1dαikuiviT) ( V n × n A=U_{m×m}Σ_{m×n}V_{n×n}=U_{m×m}(\sum^d_{d=1}α_i^ku_iv_i^T)(V_{n×n}A=Um×mΣm×nVn×n=Um×m(∑d=1dαikuiviT)(Vn×n)
TuckER是三向Tucker张量分解,它通过输出核心张量和嵌入实体和关系的向量来学习嵌入
LowFER是一种多模态分解双线性池化机制,可以更好地融合实体和关系。它推广了TuckER 模型,并且在低秩近似下计算效率很高
3.3.3 传统神经网络
用于编码语义匹配的神经网络已经表现出了优越的预测性能。它们通常将实体或关系或两者都输入深度神经网络并计算语义匹配分数。代表性的神经模型包括多层感知器(MLP)、神经张量网络(NTN)和神经关联模型(NAM)(具有线性/双线性块的编码模型也可以使用神经网络建模,例如SME)。
- MLP将实体和关系一起编码成一个全连接层,并使用带有sigmoid激活的第二层来对三元组进行评分
- NTN将实体嵌入作为与关系张量相关联的输入,它可以看作是MLP和双线性模型的结合
- NAM将隐藏编码与尾部实体的嵌入相关联,并提出了关系调制神经网络(RMNN)
3.3.4 卷积神经网络
卷积神经网络: CNN用于学习深度表达特征。
- ConvE在嵌入和多层非线性特征上使用2维卷积,通过将头部实体和关系重塑为2维矩阵来模拟实体和关系之间的交互,ConvE可以通过多层非线性特征学习来表达语义信息。
- ConvKB采用CNN对实体和关系的连接进行编码,无需重塑。卷积生成的特征映射集合的连接增加了潜在特征的学习能力。与捕获局部关系的ConvE相比,ConvKB保留了过渡特征并表现出更好的实验性能
- HypER利用超网络H进行1维关系特定卷积核生成,以实现多任务知识共享,同时简化2维ConvE。当以超网络和权重矩阵为张量时,也可以解释为张量分解模型
3.3.5 循环神经网络
基于MLP和CNN的模型主要学习三元级表示。相比之下,循环网络可以捕获知识图谱中的长期依赖关系。在关系路径上提出基于RNN的模型,以分别学习没有实体信息和有实体信息的向量表示。
- RSN设计了一种循环跳过机制,通过区分关系和实体来增强语义表示学习。通过随机游走生成具有交替顺序的实体和关系的关系路径( x 1, x 2,⋅⋅⋅, x T)(x_1,x_2,···,x_T) (x1,x2,⋅⋅⋅,xT),并进一步用于计算循环隐藏状态 h t=tanh( W h h t−1 + W x x t+b)h_t=tanh(W_hh_{t-1}+W_xx_t+b) ht=tanh(Whht−1+Wxxt+b),跳过运算符即为 h t′ = {h tx t∈ε S 1 h t+ S 2 x t−1 x t∈R h_t^{‘}=\begin{cases} h_t \quad x_t∈ε \\ S_1h_t+S_2x_{t-1} \quad x_t∈R \end{cases} ht′={htxt∈εS1ht+S2xt−1xt∈R,其中 S 1S_1 S1和 S 2S_2 S2是权重矩阵
3.3.6 Transformer系列网络
Transformer: 基于Transformer的模型促进了上下文化文本表示学习。
- CoKE使用Transformer对边和路径序列进行编码,以便利用知识图谱中的上下文信息
- KG-BERT借鉴了语言模型预训练的思想,并将来自Transformer(BERT)模型的双向编码器表示作为实体和关系的编码器。
3.3.7 图神经网络
引入图神经网络(GNN)用于在encoder-decoder框架下学习连接结构
- R-GCN提出了特定于关系的转换来模拟知识图谱的有向性质。它的前向传播定义为 x i (l+1) =σ( ∑ r∈R∑ j∈ N i r1 c i , rW r(l) x j(l)+ W 0(l) x i(l))x_i^{(l+1)}=σ\Big(\sum_{r∈R}\sum_{j∈N_i^r}\frac{1}{c_{i,r}}W_r(l)x_j(l)+W_0(l)x_i(l)\Big) xi(l+1)=σ(∑r∈R∑j∈Nirci,r1Wr(l)xj(l)+W0(l)xi(l)),其中 x i (l) ∈ R d ( l ) x^{(l)}_i∈R^{d^{(l)}} xi(l)∈Rd(l)是第l层第i个实体的隐藏状态, N i rN^r_i Nir是关系r∈R范围内的第i个实体集合, W r (l) W^{(l)}_r Wr(l)和 W 0 (l) W^{(l)}_0 W0(l)是可学习的参数矩阵, c i,r c_{i,r} ci,r是用来归一化的,例如 c i,r =∣ N i r∣c_{i,r}=|N_i^r| ci,r=∣Nir∣。R-GCN 均等地获取每个实体的邻域。
- SACN引入了加权GCN,它定义了具有相同关系类型的两个相邻节点的强度,通过利用节点结构、节点属性和关系类型来捕获知识图谱中的结构信息。称为Conv-TransE的解码器模块采用ConvE模型作为语义匹配度量并保留平移属性。通过将实体和关系嵌入的卷积输出与C核对齐为M(h,r)∈ R C×d M(h,r)∈R^{C×d} M(h,r)∈RC×d,其评分函数定义为 f r(h,t)=g(vec(M(h,r))W)tf_r(h,t)=g(vec(M(h,r))W)t fr(h,t)=g(vec(M(h,r))W)t。也有人通过引入了具有多头注意力的图注意力网络作为编码器,输入实体和关系嵌入的连接来捕获多跳邻域特征。
- CompGCN在中心节点附近的每条边上的进行实体关系合成运算,并推广了以前基于 GCN 的模型。
3.4 嵌入辅助信息
多模态嵌入将文本描述、类型约束、关系路径和视觉信息等外部信息与知识图谱本身结合起来,以促进更有效的知识表示。
3.4.1 文本描述
知识图谱中的实体把文本描述表示为 D = D=D=<w1,w2,⋅⋅⋅,wn>,并提供补充语义信息。KRL和文本描述的难点是在同一空间中嵌入结构化知识和非结构化文本信息。
有两种对齐模型,通过引入实体名称和维基百科锚点来对齐实体空间和词空间:
- DKRL对TransE进行了扩展,使得其能够通过卷积编码器直接从实体描述中学习表示。
- SSP捕获了三元组之间的强相关性和文本描述,并通过将它们投影到语义子空间中。
当将KGE与文本描述相结合时,联合损失函数被广泛应用,例如三分量损失: L= L K+ L T+ L AL=L_K+L_T+L_A L=LK+LT+LA,其中 L KL_K LK是知识模型、 L TL_T LT是文本模型和 L AL_A LA是对齐模型。
SSP使用文本描述中嵌入特定损失 L embed L_{embed} Lembed和主题特定损失 L topic L_{topic} Ltopic的双分量目标函数 L= L embed +μ L topic L=L_{embed}+μL_{topic} L=Lembed+μLtopic,通过参数μ进行权衡。
3.4.2 类型信息
实体用分层的类或类型表示,因此用语义类型表示关系。
- SSE结合实体的语义类别,将属于同一类别的实体平滑地嵌入到语义空间中。
- TKRL提出了用于实体投影矩阵的类型编码器模型,以便捕获类型层次结构。
- KREAR由于一些关系可以表示实体的属性将关系,将类型分类为属性和关系,并对实体描述之间的相关性进行建模。
3.4.3 视觉信息
视觉信息(例如实体图像)可用于丰富KRL。
- IKRL通过视觉体现,包含基于跨模态结构和基于图像的表示,将图像编码到实体空间并遵循翻译原则。
- 跨模态表示确保基于结构和基于图像的表示在相同的表示空间中。
- KRL还有很多种辅助信息,比如属性、关系路径、逻辑规则等。
3.4.4 不确定信息
与经典的确定性知识图谱嵌入相比,不确定嵌入模型旨在捕获表示关系事实可能性的不确定性。
- ProBase、NELL和ConceptNet等知识图谱包含不确定信息,并为每个相关事实分配了置信度分数。
- 最近有一种不确定的知识图谱嵌入模型,以同时保留结构和不确定性信息,其中应用概率软逻辑来推断置信度得分。概率校准采用后处理过程来调整概率分数,使预测具有概率意义。
4.知识获取
本节回顾了不完全知识图谱的知识补全和从纯文本获取的知识。
知识获取旨在从非结构化文本和其他结构化或半结构化源中构建知识图谱,完成现有的知识图谱,发现和识别实体和关系。构建良好的大规模知识图谱可用于许多下游应用程序,并通过常识推理为知识感知模型提供支持。
知识获取的主要任务包括知识图谱补全(KGC)、实体识别和关系抽取等其他面向实体的获取任务。
4.1 知识图谱补全(KGC)
由于知识图谱的不完全性,KGC被开发用于向知识图谱添加新的三元组。知识图谱补全主要是完成现有实体之间缺失的链接,或推断给定实体和关系查询的实体。典型的子任务包括链接预测、实体预测和关系预测。 KGC的初步研究侧重于学习用于三重预测的低维嵌入,即基于嵌入的方法。但是其很难捕捉到多步骤关系。因此,最近的工作转向探索多步骤关系路径并结合逻辑规则,分别称为关系路径推理和基于规则的推理
4.1.1 基于嵌入的方法
KGC可以使用上述KRL方法(TransE、TransH、TransR、HolE和RGCN)和带有文本信息的联合学习方法如DKRL。以实体预测为例,基于嵌入的排序方法首先根据现有的三元组学习嵌入向量,通过将尾部实体或头部实体替换为每个实体e∈ε,这些方法计算所有候选实体的得分,并对前k个实体进行排名,但基于嵌入的方法很难捕捉到多步骤关系。
- ProjE并没有在统一嵌入空间中表示输入和候选不同,它通过输入三元组已知部分((h,r,” /> W c∈ R s×d W^c∈R^{s×d} Wc∈Rs×d的空间投影(其中s是候选实体的数量)进行组合嵌入。包含神经组合层和输出投影层的嵌入投影函数定义为h(e,r)=g( W cσ(e⊕r)+ b ph(e,r)=g(W^cσ(e⊕r)+b_p h(e,r)=g(Wcσ(e⊕r)+bp,其中e⊕r= D ee+ D rr+ b ce⊕r=D_ee+D_rr+b_c e⊕r=Dee+Drr+bc是输入”实体-关系”对的联合运算符。
- SENN通过引入一个统一的神经共享嵌入和自适应加权一般损失函数来学习不同的潜在特征,从而明确区分了三个KGC子任务(链接预测、实体预测和关系预测)。这样解决了以前的嵌入方法不区分实体和关系预测,ProjE也不支持关系预测的问题
- ConMask提出在实体描述上进行依赖关系的内容屏蔽,以选择给定关系的相关片段,并基于CNN的目标融合,以完成包含未知实体的知识图谱。这样解决了现有方法在很大程度上依赖于知识图谱中的现有连接,并且无法捕获具有少量连接的事实知识或实体演化的问题。但是,ConMask只能在文本描述中明确表示查询关系和实体时进行预测。
- REMEDY专注于医学领域,提出了一种生成模型,称为条件关系变分自动编码器,用于从潜在空间中发现实体对。这样解决了以前的方法依赖于预先准备好的实体对或文本语料库的区分模型的弊端。
4.1.2 关系路径推理
实体和关系的基于嵌入的模型在一些基准测试中获得了显着的性能,但它只停留在个体关系层面,忽略了知识图谱的符号性,缺乏可解释性,无法对复杂的关系路径进行建模。因此,关系路径推理选择利用图结构上的路径信息。
- 随机游走推理已被广泛应用,例如:路径排序算法(PRA)在路径约束的组合下选择关系路径并进行最大似然分类。为了改进路径搜索,可以通过合并文本内容在随机游走中引入向量空间相似性启发式算法,这也缓解了PRA中的特征稀疏问题。还可以利用神经多跳关系路径建模。
- 也可以构建基于RNN模型,通过递归地应用组合性来组合关系路径的含义(图6b)。
- 推理链是一种支持多种原因的神经注意机制,代表了所有关系、实体和文本的逻辑组成。
- DIVA提出了一个统一的变分推理框架,将多跳推理作为路径查找(底层路径推理的先验分布)和路径推理(链接分类的可能性)的两个子步骤
4.1.3 基于强化学习的路径查找
通过将实体对之间的路径查找表示为顺序决策(尤其是马尔可夫决策过程(MDP)),将深度强化学习(RL)引入到多跳推理中。但是,路径搜索和神经路径在大尺度图上进行遍历时,它们会出现连通性不足的问题。
- 基于策略的RL代理通过知识图谱环境之间的交互,学习寻找与扩展推理路径相关的步骤,其中策略梯度用于培训RL代理
- DeepPath首先将RL应用于关系路径学习,并开发了一种新的奖励函数,以提高准确性、路径多样性和路径效率。它通过平移嵌入方法对连续空间中的状态进行编码,并将关系空间作为其动作空间。
- MINERVA和DeepPath类似,通过最大化预期回报,将通往正确答案实体的路径行走视为一个顺序优化问题。它排除了目标答案实体,并提供了更强大的推理能力。
- MultiHop提出了一种软奖励机制,而不是使用二值奖励函数。在训练过程中,还采用了动作丢失来掩盖一些传出边,以实现更有效的路径探索。
- M-Walk应用RNN捕获历史轨迹,并使用蒙特卡罗树搜索(MCTS)生成有效路径。通过利用文本语料库和当前实体的句子包(表示为 b et b_{e_t} bet)
- CPL提出了用于文本寻路和事实提取的协作策略学习。
表III总结了各种方法的MDP环境和策略网络,其中MINERVA、M-Walk和CPL使用二进制奖励函数,其余使用软奖励函数。对于策略网络,DeepPath使用全连接网络,CPL的提取器使用CNN,其余使用RNN
4.1.4 基于规则的推理
为了更好地利用知识的符号性质,KGC的另一个研究方向是逻辑规则学习。符号和嵌入的混合方法结合了基于规则的推理,克服了知识图谱的稀疏性,提高了嵌入的质量,促进了高效的规则注入,并诱导出可解释的规则。规则由head和body通过head <- body
的形式定义。例如,头部是一个最小单元,即具有可变主客体的事实,而身体可以是一组原子。例如,给定关系sonOf、hasChild和gender,以及实体X和Y,逻辑编程的反形式规则如下: (Y,sonOf,X) <- (X,hasChild,Y) ∩ (Y,gender,Male)
- 通过AMIE等规则挖掘工具可以提取逻辑规则
- RLvLR提出了一种具有高效规则搜索和剪枝的可扩展规则挖掘方法,并将提取的规则用于链接预测。
- 更多的研究关注于将逻辑规则注入嵌入以改进推理,联合学习或迭代训练用于合并一阶逻辑规则。
- KALE提出了一个统一的联合模型,其中为兼容的三元组和逻辑规则嵌入定义了t范数模糊逻辑连接词。具体来说,定义了逻辑合取、析取和否定三种组合来构成复杂公式的真值。图7a显示了一个简单的一阶Horn子句推断。
- RUGE提出了一种迭代模型,其中使用软规则从无标记的三元组和有标记的三元组进行软标记预测,以进行嵌入校正
- IterE提出了一种迭代训练策略,包括嵌入学习、公理归纳和公理注入三个部分
- 逻辑规则是一种辅助信息。同时,它可以结合先验知识,使可解释的多跳推理能力得以实现,并为即使在少数镜头标记的关系三元组中进行泛化铺平道路。然而,仅逻辑规则在知识图谱中只能覆盖有限数量的关系事实,并且需要巨大的搜索空间。
- 神经计算和符号计算的结合具有互补优势,可以利用有效的数据驱动学习和可微优化,并利用先验逻辑知识进行精确和可解释的推理。将基于规则的学习用于知识表示,主要是为了向表示添加正则化或约束
- 神经定理证明器(NTP)学习用于多跳推理的逻辑规则,该逻辑规则利用径向基函数核在向量空间上进行可微计算
- NeuralLP使基于梯度的优化适用于归纳逻辑编程,其中通过集成注意机制和辅助存储器提出了神经控制器系统
- Neural-Num-LP扩展NeuralLP以学习具有动态规划和累积和运算的数值规则
- pLogicNet提出概率逻辑神经网络(图7b),在处理逻辑规则的不确定性时,结合马尔可夫逻辑网络和KRL方法的优点,利用一阶辑并学习有效嵌入
- ExpressGNN通过优化图形网络和嵌入来推广pLogicNet,并实现更高效的逻辑推理。
4.1.5 元关系学习
知识图谱的关系中存在长尾现象。同时,现实世界的知识场景是动态的,通常会获得看不见的三元组。新场景称为元关系学习或少样本关系学习,模型需要用很少的样本来预测新的关系事实。
元关系学习的新兴方向旨在学习在低资源环境中对不可见关系的快速适应。
- 有一些基于度量的小样本学习方法专门针对上述元关系学习的两个特点,该方法具有实体嵌入和局部图结构。它使用R-GCN对一跳领域进行编码以捕获结构信息,然后同LSTM对结构实体嵌入进行多步匹配来计算相似度分数
- Meta-KGR是一种基于优化的元学习方法,采用与模型无关的元学习进行快速适应和强化学习,用于实体搜索和路径推理
- 受基于模型和基于优化的元学习的启发,MetaR将特定关系的元信息从支持集传输到查询集,并通过高阶关系表示的损失梯度实现快速适应
- 可以用异构图编码器、循环自动编码器和匹配网络组合成的联合模块,通过少量参考来完成新的关系事实。
- GAN在零样本学习设置下也可以为看不见的关系生成合理的嵌入
- 图外推网络(GEN)是一种转导元学习框架,用于知识图谱中的少量图外链接预测
4.1.6 三重分类
三重分类:三重分类是确定测试数据中的事实是否正确(这通常被认为是一个二元分类问题)。
- 决策规则基于具有特定阈值的评分函数。上述嵌入方法可以应用于三重分类,包括基于平移距离的方法(如TransH和TransR)以及基于语义匹配的方法(如NTN、HolE和ANALOGY)。
- 由于基于Vanilla向量的嵌入方法无法处理1对n关系,可以将嵌入空间扩展到基于区域的n维球中,其中尾部区域位于头部区域中,使用细粒度类型链(即树结构概念聚类)来实现1对n关系。这种嵌入到n球的放松将三重分类变成了几何包含问题,并提高了具有长类型链的实体的性能。但是,它依赖于实体的类型链并且存在可扩展性问题
4.2 实体发现
实体发现从文本中获取面向实体的知识,并在知识图谱之间融合知识。本节把基于实体的知识获取分为4个细分的任务,即实体识别、实体类型、实体消歧和实体对齐。我们将它们统称为实体发现,因为它们都在不同的设置下探索与实体相关的知识。
4.2.1 实体识别
实体识别也称为命名实体识别(NER),当针对特定命名的实体时,可以当作是在文本中标记实体
- 很常用的是序列到序列的神经架构,例如LSTM-CNN用于学习字符级和单词级特征以及编码部分词典匹配
- 堆叠神经架构,即堆叠LSTM层和CRF层(比如LSTM-CRF(图8a)和Stack-LSTM)
- MGNER提出了一个集成框架,该框架具有各种粒度的实体位置检测和基于注意力的实体分类,适用于嵌套和非重叠命名实体。
- 多任务训练可以区分多标记和单标记实体
- 通过参考注释指南来构建查询问题,将平面和嵌套NER制定为统一的机器阅读理解框架
- 具有ERNIE和K-BERT等知识图谱的预训练语言模型已应用于NER并取得了改进的性能
4.2.2 实体类型
实体类型: 实体类型包括粗粒度类型和细粒度类型,其中后者使用树结构类型类别,通常被视为多类和多标签分类。
实体类型化讨论了有噪声的类型标签和零样本类型化
- PLE专注于正确类型识别以减少标签噪声,并提出了一种带有异构图的部分标签嵌入模型,用于表示实体别名、文本特征和实体类型及其关系。
- 有人提出了原型驱动的标签嵌入以解决排版和噪声标签的日益增长,其中包含用于零样本细粒度命名实体类型的分层信息
- JOIE基于嵌入,学习实例视图和本体视图图的联合嵌入,将实体类型设为top-k排名以预测相关概念
- ConnectE探索局部类型和全局三元组知识以增强联合嵌入学习
4.2.3 实体消歧
实体消歧或实体链接是将实体别名链接到知识图谱中的相应实体的统一任务。例如,爱因斯坦在 1921年获得诺贝尔物理学奖,”爱因斯坦”的实体别名应该与阿尔伯特·爱因斯坦的实体联系起来
- 当前端到端学习方法通过实体和提及的表示学习做出了努力。例如,DSRM用于建模实体语义相关性;EDKate用于实体和文本的联合嵌入。
- 有人提出了一种在局部上下文窗口上的注意力神经模型,用于实体嵌入学习和用于推断模糊实体的可微消息传递。
- 通过将实体之间的关系视为潜在变量,有人开发了一种端到端的神经架构,具有关系和提及规范化的特点
4.2.4 实体对齐(EA)
前面所述的几种任务涉及从文本或单个知识图谱中发现实体,而实体对齐(EA)旨在融合各种知识图谱之间的知识。例如,给定 ε1 ε_1ε1和 ε2 ε_2ε2作为两个不同知识图谱的两个不同实体集,EA就是找一个对齐集A={ ( e1, e2) ∈ ε1× ε2∣ e1≡ e2 (e_1,e_2)∈ε_1×ε_2|e_1≡e_2(e1,e2)∈ε1×ε2∣e1≡e2}。在实践中,会给出一小组对齐种子(即同义实体出现在不同的知识图谱中)来开始对齐过程(如图8b左框所示),实体消歧和对齐学习进行统一嵌入,用来解决对齐种子数量有限问题的迭代对齐模型。
- 基于嵌入的对齐用于计算一对实体嵌入之间的相似度。
- MTransE首先研究了多语言场景中的实体对齐。它考虑了基于距离的轴校准、平移向量和线性变换,用于跨语言实体匹配和三重对齐验证
- IPTransE基于平移和线性变换模型提出了一种迭代对齐模型,通过对齐平移、线性变换和参数共享将实体映射到联合嵌入框架下的统一表示空间(图8b),其中对齐平移为∣∣ e 1+ rε 1→ ε 2 − e 2∣∣||e_1+r^{ε_1 → ε_2}-e_2|| ∣∣e1+rε1→ε2−e2∣∣,线性变换为∣∣ M ( ε 1→ ε 2)e 1− e 2∣∣||M^{(ε_1 → ε_2)}e_1-e_2|| ∣∣M(ε1→ε2)e1−e2∣∣,参数共享为e1≡e2
- BootEA提出了一种增量训练方式的引导方法以解决迭代对齐中的错误累积,以及用于检查新标记对齐的编辑技术
- 实体的附加信息也被纳入细化。例如,JAPE捕获跨语言属性之间的相关性; KDCoE通过协同训练嵌入多语言实体描述; MultiKE学习实体名称、关系和属性和字符属性嵌入对齐的多个视图
4.3 关系提取
关系提取是通过从纯文本中提取未知的关系事实并将其添加到知识图谱中来自动构建大规模知识图谱的关键任务。
近年来,特定语言知识的增长推动了跨语言知识整合的研究。在远程监督的假设下,关系提取后会存在噪声,特别是在不同领域的文本语料中。因此,弱监督关系提取必须减轻噪声标记的影响。
远程监督(也称为弱监督或自我监督)由于缺乏标记的关系数据,通过假设包含相同实体别名的句子在监督下可能表达相同的关系,进而使用启发式匹配来创建训练数据的关系数据库。
有人因此对具有文本特征的关系分类采用了远程监督,包括词汇和句法特征、命名实体标签和连接特征。传统方法高度依赖特征工程。最近的一种方法是探索特征之间的内在相关性
深度神经网络正在改变知识图谱和文本的表示学习。
4.3.1 神经关系提取
本节回顾了神经关系提取(NRE)的最新进展,概述如图9所示。当前的NRE基本都集成了RL。
- 首先把具有与实体的相对距离的位置特征的CNN系列网络用于关系分类,然后通过具有多个尺寸卷积滤波器的多窗口CNN扩展到关系提取。
- 多实例学习以句子包作为输入来预测实体对的关系。
- PCNN在除以实体位置的卷积表示片段上应用分段最大池化。与普通CNN相比,PCNN可以更有效地捕获实体对内的结构信息。
- MIMLCNN进一步将其扩展到具有跨句子最大池化的多标签学习以进行特征选择。还利用了诸如类关系和关系路径之类的辅助信息。
- SDP-LSTM引入RNN系列网络,采用多通道LSTM,同时利用实体对之间的最短依赖路径;也可以基于依赖树堆叠出顺序和树结构的LSTM系列网络。
- BRCNN将用于捕获顺序依赖关系的RNN与用于使用双通道Bi-LSTM和CNN表示局部语义的CNN相结合。
4.3.2 注意力机制
注意力机制的许多变体与CNN相结合,包括用于捕获单词语义信息的词元级注意力和对多个实例的用于减轻噪声实例影响的选择性注意力。
注意力机制通过对实例的软选择来减少噪声模式
- 有的算法引入了其他辅助信息以丰富语义表示,比如APCNN引入了PCNN的实体描述和句子级注意
- HATT提出了分层选择性注意,通过连接每个分层的注意力表示来捕获关系层次。
- Att-BLSTM不是基于CNN的句子编码器,而是使用BiLSTM提出词元级注意。
- 最近有人也开始利用来自深度Transformers模型的预训练关系进行表示。
4.3.3 图卷积网络(GCNs)
图卷积网络(GCNs)用于编码句子上的依赖树或学习知识图谱嵌入的各类函数方法,以便利用关系知识进行句子编码。
- C-GCN是一个上下文化的GCN模型,它基于以路径为中心的剪枝后的句子剪枝依赖树。
- AGGCN也将GCN应用于依赖树,但利用多头注意力以软加权方式进行边缘选择。
- 与C-GCN和AGGCN不同,我们可以将GCN应用于知识图谱中的关系嵌入,用于基于句子的关系提取。进一步也可以选择从粗到细的知识感知注意力机制用于选择信息实例。
4.3.4 对抗训练
对抗训练: 对抗训练(AT)用于在MIML学习设置下为基于CNN和RNN的关系提取的词嵌入添加对抗噪声。
- DSGAN通过学习句子级正类样本的生成器和最小化生成器正类概率的鉴别器,来对远程监督关系提取进行去噪。
4.3.5 强化学习(RL)
通过使用策略网络训练实例选择器,RL已被集成到神经关系提取中。基于RL的NRE的优点是关系提取器与模型无关。因此,它可以很容易地适应任何神经架构以进行有效的关系提取。基于强化学习的方法将实例选择制定为硬决策(非是即否)。另一个原则是学习尽可能丰富的表现形式。
- 有人提出训练基于策略的RL代理的句子关系分类器,将误报为正样本的实例重新分配到负样本中,以减轻噪声数据的影响。可以将F1分数作为评估指标,并使用基于F1分数的性能变化作为对策略网络的奖励。当然,也有不同的奖励策略
- HRL最近提出了一种高层关系检测和低层实体提取的分层策略学习框架
4.3.6 其他进展
深度学习的其他进展也应用于神经关系提取
- 当前的NRE方法不使用非常深的网络,可以将深度残差学习应用于噪声关系提取,多层CNN的性能会有所提高
- 通过实体分类的迁移学习来初始化神经模型
- 协作CORD通过双向知识蒸馏和自适应模仿,将文本语料库和知识图谱与外部逻辑规则相结合。
- TK-MF通过匹配句子和主题词来丰富句子表示学习。
- 最近,Shahbazi等人通过对几种解释机制(包括显着性、梯度×输入和遗漏一个)进行基准测试来研究可信关系提取
- 知识图谱中低频关系的存在需要用不可见的类或只有少数实例的少镜头关系分类。
- 有人提出了基于注意的混合原型网络来计算原型关系嵌入,并比较其与查询嵌入之间的距离
- 有人利用全局关系图探索了关系之间的关系,并将少镜头关系提取作为贝叶斯元学习问题来学习关系原型向量的后验布
4.3.7 联合实体和关系提取
传统的关系提取模型采用管道方法,首先提取实体别名,然后对关系进行分类。然而,管道方法可能会导致错误积累。多项研究表明,联合学习的性能优于传统的管道方法
- 有人提出了一种基于注意的LSTM网络的联合提取框架
- 也可以将联合提取转化为不同的问题,如通过一种新的标记方案进行序列标记和多回合问答。
- 有人提出了一种级联二进制标记框架,把关系建模成主客体映射函数,以便解决实体对和关系的重叠问题
- 联合学习框架中训练和推理存在分布差异,导致产生偏差。于是有人提出了一种单阶段联合提取框架,将联合实体和关系提取转化为标记对链接任务,以减少传播和产生偏差
- 通常认为联合模型可以通过捕捉实体和关系的相互作用来减少错误积累。但与此不同的是,有人提出了一种简单的基于管道但有效的方法被用来学习实体和关系的两个独立编码器,这说明强上下文表示可以保留实体和关系的不同特征
5.时间知识图谱
目前对知识图谱的研究多集中在静态知识图谱上,知识图谱的事实不随时间变化,对知识图谱的时间动态研究较少。然而,时间信息非常重要,因为结构化的知识只在特定的时间段内成立,事实的演变遵循时间序列。
近年来的研究开始将时间信息引入KRL和KGC中,与以往的静态知识图谱不同,我们将其称为时间知识图谱。
当前有大量的研究关于学习时间嵌入和关系嵌入。动态网络嵌入的相关模型也启发了时间知识图谱嵌入。例如,捕获”时间-拓扑”结构并同时学习”时间-特征”相互作用的时间图注意力(TGAT)网络可能有助于保存知识图谱的时间感知关系
5.1 时间信息嵌入
- 时间信息嵌入: 通过将三元组扩展为时间四元组(h,r,t,τ),在时间感知嵌入中考虑时间信息,其中τ提供关于事实保持时间的额外时间信息。
- 有人研究了时间注释三元组的时间范围预测,并简单地扩展了现有的嵌入方法,例如,将TransE和基于向量的TTransE定义为 f τ(h,r,t)=−∣∣h+r+τ−t∣ ∣ L 1 / 2 f_τ(h,r,t)=-||h+r+τ-t||_{L_{1/2}} fτ(h,r,t)=−∣∣h+r+τ−t∣∣L1/2
- 有人也推广了现有的静态嵌入方法,提出了ConT,用时间戳嵌入代替Tucker的共享权向量。
- 时间作用域四重组通过增加时间作用域[ τ s, τ e][τ_s,τ_e] [τs,τe]来扩展三元组,其中 τ sτ_s τs和 τ eτ_e τe代表三元组有效时间的开始和结束,当给定特定的时间戳τ时,可以从动态知识图谱派生出静态子图 G TG_T GT。
- HyTE将时间戳作为超平面 w τw_τ wτ,并将实体和关系表示投影为 P τ(h)=h−( w τ Th) w τP_τ(h)=h−(w_τ^Th)w_τ Pτ(h)=h−(wτTh)wτ, P τ(t)=t−( w τ Tt) w τP_τ(t)=t−(w_τ^Tt)w_τ Pτ(t)=t−(wτTt)wτ, P τ(r)=r−( w τ Tr) w τP_τ(r)=r−(w_τ^Tr)w_τ Pτ(r)=r−(wτTr)wτ。在 P τ(h)+ P τ(r)≈ P τ(t)P_τ(h)+P_τ(r)≈P_τ(t) Pτ(h)+Pτ(r)≈Pτ(t)的投影平移范围内,时间投影的评分函数为 f τ(h,r,t)=∣∣ P τ(h)+ P τ(r)− P τ(t)∣ ∣L 1/ L 2 f_τ(h,r,t)=||P_τ(h)+P_τ(r)-P_τ(t)||_{L_1/L_2} fτ(h,r,t)=∣∣Pτ(h)+Pτ(r)−Pτ(t)∣∣L1/L2
- 有人将谓词标记序列和时态标记序列进行了连接,并使用LSTM对连接起来的时间感知谓词序列进行编码。LSTM的最后一个隐藏状态被视为具有时间感知能力的关系嵌入 r temp r_{temp} rtemp
- 扩展TransE和DistMult的评分函数分别为∣∣h+ r temp −t∣ ∣ 2||h+r_{temp}−t||_2 ∣∣h+rtemp−t∣∣2和(h◦t) r tempT(h◦t)r^T_{temp} (h◦t)rtempT
- 通过将实体e的上下文定义为包含e的事实的集合,有人提出了用上下文选择来捕获有用的上下文,并测量了所选上下文的时间一致性。
- 通过将时间KGC表示为4阶张量补全,有人提出融合了分解的ComplEx的TComplEx,并引入了加权正则化器。
5.2 动态实体
真实世界的事件改变实体的状态,从而影响相应的关系。
- 为了改进时间范围推断,上下文时间轮廓模型将时间范围问题表述为状态变化检测,并利用上下文学习状态和状态变化向量。
- 受历时词嵌入的启发,有人将实体和时间戳作为实体嵌入函数的输入,以保留实体在任何时间点的时间感知特征。
- Know-evolve是一个深度进化知识网络,研究实体的知识进化现象及其进化关系。
- 利用多变量时间点过程对事实的发生过程进行建模,提出了一种新的递归网络来学习非线性时间演化的表示。
- RE-NET通过基于RNN的事件编码器和邻域聚合器对事件序列建模,以便捕获节点之间的交互。具体来说,RNN用于捕获时间实体交互,而邻域聚合器聚合所有的并发交互。
5.3 时间关系依赖
在时间轴的关系链中存在时间依赖,如wasBorn → IngraduateFrom → workAt → diedIn
- 有人提出了时间感知嵌入(一种具有时间正则化的联合学习框架),以整合时间顺序和一致性信息。作者定义了一个时间评分函数f()=∣∣ r kT− r l∣ ∣ L 1 / 2 f()=||r_kT-r_l||_{L_{1/2}} f(<rk,rl>)=∣∣rkT−rl∣∣L1/2,其中T∈ R d×d T∈R^{d×d} T∈Rd×d是一个用于编码关系的时间顺序(比如时间顺序关系对 <rk,rl>)的非对称矩阵。 利用整数线性规划公式进一步应用了离散性、有序性和跨度三个时间一致性约束。
5.4 时间逻辑推理
时间逻辑推理: 逻辑规则也被用来研究时间推理。
- 有人研究了马尔可夫逻辑网络和概率软逻辑,用于对不确定时间知识图谱进行推理。
- RLvLR-Stream考虑了时间封闭路径规则,并从知识图谱流中学习规则的结构以进行推理。
6.知识感知应用
丰富的结构化知识对人工智能应用非常有用。然而,如何将这些符号知识集成到现实应用程序的计算框架中仍然是一个挑战。
知识图谱的应用包括两个方面: 1)KG内应用,如链接预测和命名实体识别; 2) KG外应用,包括关系提取和更下游的知识感知应用,如问题回答和推荐系统。本节介绍几种基于深度神经网络的知识驱动方法及其在自然语言处理和推荐中的应用。
6.1 语言表示学习
- 通过自我监督语言预训练模型的语言表示学习已经成为许多自然语言处理系统不可或缺的组成部分。
- 传统的语言建模没有利用文本语料库中经常观察到的实体的事实知识。所以如何把知识整合到语言表示中越来越受到关注。
- 知识图谱语言模型(KGLM)通过选择和复制实体来学习呈现知识。
- ERNIE-Tsinghua通过聚合预训练和随机屏蔽来融合信息实体。
- K-BERT将领域知识注入BERT上下文编码器。
- ERNIE-Baidu引入了命名实体掩蔽和短语掩蔽,将知识集成到语言模型中,ERNIE-2。0进一步通过持续的多任务学习对其进行了进一步改进。
- KEPLER通过联合优化将知识嵌入和遮蔽语言建模损失结合起来,以便从文本中获取事实知识。
- GLM提出了一种图形引导的实体屏蔽方案,隐式地利用知识图谱。
- CoLAKE通过统一的单词知识图谱和改进的Transformer编码器进一步利用了实体的知识上下文。
- 与K-BERT模型类似,BERT-MK关注医学语料库,通过知识子图提取将医学知识集成到预训练语言模型中。
6.2 基于知识图谱的问答(KG-QA)
基于知识图谱的问答(KG-QA)用来自知识图谱的事实回答自然语言问题。基于神经网络的方法在分布式语义空间中表示问题和答案,有些方法还进行符号知识注入,用于常识推理。
6.2.1 单事实QA
单事实QA也叫简单的事实QA,将知识图谱作为外部智力来源,主要是回答一个涉及单个知识图谱事实的简单问题。
- 有人提出了一种配备了专门的条件聚焦神经网络,用来减少搜索空间。
- BAMnet利用双向注意机制对问题与知识图谱之间的双向互动进行建模。
- 深度学习技术不可避免地增加了模型的复杂性,有人发现,在对简单KG-QA(含深度学习和不含深度学习)的评估中,具有启发式的复杂深度模型如LSTM和GRU都达到了最先进的水平,非神经模型也获得了相当好的性能。
6.2.2 多跳推理
多跳推理要处理复杂的多跳关系,需要更专门的设计,能够进行多跳常识推理。
- 结构化知识提供了信息的常识观察,并充当关系归纳偏差,这促进了近年来符号和语义空间常识知识融合的多跳推理研究。
- 有人提出了多跳双向注意和指针生成器解码器,通过ConceptNet中的关系路径选择和选择性注意力注入,利用外部常识知识,行有效的多跳推理和连贯答案生成
- 变分推理网络(VRN)采用推理图嵌入的方式进行多跳逻辑推理,同时处理主题实体识别中的不确定性。
- KagNet执行概念识别,从ConceptNet构建模式图,并通过GCN、LSTM和基于路径的分层注意学习基于路径的关系表示。
- CogQA结合隐式提取和显式推理,提出了一种基于BERT和GNN的认知图模型,用于多跳QA。
6.3 推荐系统
推荐系统将知识图谱作为外部信息,促使推荐系统具有常识推理能力,具有解决稀疏性问题和冷启动问题的潜力。
- 许多工作都致力于基于嵌入的正则化,通过注入基于知识图谱的侧面信息,如实体、关系和属性,以改进推荐。
- 联合CKE通过平移的KGE模型和堆叠式自动编码器联合训练KGE、项目文本信息和视觉内容。
- DKN注意到时间敏感和主题敏感的新闻文章由精简的实体和公共知识组成,通过一个具有多通道单词实体对齐的文本输入的知识感知CNN模型,来合并知识图谱。
- 由于DKN需要提前学习实体嵌入,因此不能采用端到端方式进行训练。为了实现端到端训练,MKR通过共享潜在特征和对高阶”项目-实体”交互建模,将多任务知识图谱表示和推荐联系起来。
- 其他工作考虑的是知识图谱的关系路径和结构,而KPRN则将用户与项目之间的交互视为知识图谱中的”实体-关系”路径,并使用LSTM对该路径进行偏好推断,以捕获顺序依赖关系。
- PGPR对基于知识图谱的用户项目交互执行强化策略引导的路径推理。
- KGAT在”实体-关系”图和”用户-项目”图的协同知识图谱上应用图注意力网络,通过嵌入传播和基于注意力的聚合对高阶连通性进行编码。
- 基于知识图谱的推荐本质上是通过在知识图谱中嵌入传播与多跳邻居来处理可解释性
7.未来方向
为了解决知识表示及其相关应用的挑战,已经进行了许多工作。然而,仍有几个令人生畏的尚未解决的问题和充满希望的未来方向。
7.1 复杂推理
知识表示和推理的数值计算需要一个连续的向量空间来捕获实体和关系的语义。
- 虽然基于嵌入的方法在复杂逻辑推理方面存在局限性,但关系路径和符号逻辑两个方向值得进一步探索。
- 循环关系路径编码、基于GNN的消息传递知识图谱、基于强化学习的寻路和推理等方法是处理复杂推理的新兴方法。
- 对于逻辑规则与嵌入的结合,可以将马尔可夫逻辑网络与KGE相结合,旨在利用逻辑规则并处理其不确定性。
- 利用概率推理来获取不确定性和领域知识的有效嵌入将是一个值得关注的研究方向。
7.2 统一框架
知识图谱上的几种表示学习模型已经被验证为等价。
- 对于具有特定约束的链接预测,HolE和ComplEx在数学上是等价的。
- ANALOGY提供了几个代表性模型的统一视图,包括DistMult、ComplEx和HolE。
- 有人研究了几种双线性模型之间的联系。有人探讨了加法和乘法KRL模型的几何理解。大部分的研究都用不同的模型分别阐述了KGC和关系提取。
- 有人将KGC和关系提取放在同一个大框架下,提出了一种相互关注的联合学习框架,实现知识图谱与文本之间的信息共享。
7.3 可解释性
知识表示和注入的可解释性是知识获取和现实应用的一个重要问题。可解释性可以说服人们相信预测。因此,应该进一步研究可解释性和提高预测知识的可靠性。
- ITransF使用稀疏向量进行知识传递,并使用注意力可视化进行解释。
- CrossE通过使用基于嵌入的路径搜索生成链接预测的解释,探索了知识图谱的解释方案。
- 然而,尽管它们取得了令人印象深刻的性能,最近的神经模型在透明度和可解释性方面仍有局限性。一些方法结合了黑盒神经模型和符号推理,通过合并逻辑规则来增加互操作性。
7.4 可扩展性
可扩展性在大规模知识图谱(比如超过一百万个实体)中至关重要。计算效率和模型表达之间需要权衡。
- 有几种嵌入方法采用简化的方法来降低计算成本,如用循环相关运算来简化张量积。然而,这些方法仍然难以扩展到数以百万计的实体和关系。
- 使用马尔可夫逻辑网络的概率逻辑推理计算量大,难以扩展到大规模的知识图谱。
- 有的一种神经逻辑模型中的规则是通过简单的蛮力搜索生成的,这使得它在大规模的知识图谱上并不充分。
- ExpressGNN尝试使用NeuralLP进行高效的规则归纳。
7.5 知识聚合
全局知识的聚合是知识感知应用的核心。
- 推荐系统使用知识图谱对”用户-物品”交互和文本分类进行联合建模,将文本和知识图谱编码到语义空间中。
- 目前大多数知识聚合方法都设计了神经体系结构,如注意力机制和GNN。
- 通过Transformer和BERT模型等变体进行大规模的预训练,促进了自然语言处理领域的发展。基于非结构化文本的预训练语言模型可以获得一定的事实知识。大规模的预训练是注入知识的直接方式。
7.6 自动构造和动态构造
7.6.1 自动构造
目前的知识图谱高度依赖人工构建,这是劳动密集型的而且昂贵的。知识图谱在不同认知智能领域的广泛应用要求从大规模非结构化内容中自动构建知识图谱。目前的研究主要是在现有知识图谱的指导下进行半自动构建。
7.6.2 动态构造
主流研究集中在静态知识图谱上,在预测时间范围有效性、学习时间信息和动态实体等方面有很多研究。许多实例只在特定时期内成立。动态知识图谱结合捕捉动态的学习算法,可以解决传统知识表示和推理的局限性。