2017 | Cong's Log

2017, EMNLP data: FB15K-237, FB15K task: Knowledge Graph Reasoning Use a policy-based agent with continuous states based on knowledge graph embeddings, which reasons in a KG vector space by sampling the most promising relation to extend its path. 方法 RL 系统包含两部分，第一部分是外部环境，指定了智能体和知识图谱之间的动态交互。环境被建模为马尔可夫决策过程。系统的第二部分，RL 智能体，表示为策略网络，将状态向量映射到随机策略中。神经网络参数通过随机梯度下降更新。相比于 DQN，基于策略的 RL 方法更适合该知识图谱场景。一个原因是知识图谱的路径查找过程，行为空间因为关系图的复杂性可能非常大。这可能导致 DQN 的收敛性变差。另外，策略网络能学习梯度策略，防止智能体陷入某种中间状态，而避免基于值的方法如 DQN 在学习策略梯度中遇到的问题。关系推理的强化学习行为给定一些实体对和一个关系，我们想让智能体找到最有信息量的路径来连接这些实体对。从源实体开始，智能体使用策略网络找到最有希望的关系并每步扩展它的路径直到到达目标实体。为了保持策略网络的输出维度一致，动作空间被定义为知识图谱中的所有关系。状态知识图谱中的实体和关系是自然的离散原子符号。现有的实际应用的知识图谱例如 Freebase 和 NELL 通常有大量三元组，不可能直接将所有原子符号建模为状态。为了捕捉这些符号的语义信息，我们使用基于平移的嵌入方法，例如 TransE 和 TransH 来表示实体和关系。这些嵌入将所有符号映射到低维向量空间。在该框架中，每个状态捕捉智能体在知识图谱中的位置。在执行一个行为后，智能体会从一个实体移动到另一个实体。两个状态通过刚执行的行为（关系）由智能体连接。第 t 步的状态向量： ...