ACL(Annual Meeting of the Association for Computational Linguistics)是人工智能领域自然语言处理(Natural Language Processing,NLP)方向最权威的国际会议之一,是CCF A类会议。本次被ACL2024录用的论文第一作者李江为高光来教授组指导的博士研究生,该论文首次聚焦于多领域的知识图谱补全问题。该研究工作得到了国家自然科学基金项目以及自治区重点研发和成果转化计划项目的经费支持,蒙古文智能信息处理技术国家地方联合工程研究中心为该项研究提供了软硬件支撑。
知识图嵌入通过将实体和关系表示为低维度向量,在链接预测任务中得到了广泛应用。在实际应用中,知识图往往涵盖了多个领域,这对知识图的表示提出了较大挑战。然而,现有的KGE方法很少对多域知识图中的嵌入分布进行明确的域限制,这会导致不同域的嵌入重叠,从而降低了链接预测的性能。
为了应对这一挑战,文章提出了“双阿基米德螺旋知识图嵌入”(DuASE),这是一种专为多领域知识图设计的低维度嵌入模型。DuASE的动机来源于课题组的一个发现:关系类型可以用来区分不同领域的实体。在知识图谱的语境中,“域”一词用于描述图谱所涵盖或代表的特定主题领域或知识类别,指的是包含在图谱中的实体、概念和关系的范围,不同域之间的差异主要体现在实体类型和关系类型上。由于大多数知识图谱中没有提供实体类型信息,课题组主要依靠关系类型来实现域知识的区分,并避免嵌入重叠问题。
具体而言,DuASE在同一个阿基米德螺旋上对具有相同关系的实体进行编码,有效区分不同领域的实体。为防止跨域嵌入的重叠,DuASE进一步利用正则化函数确保同一三元组内的头实体和尾实体沿各自的域空间螺旋。因此,在对多域知识图进行建模时,DuASE能够更精确地捕捉域信息和实体间的依赖关系,从而优化知识图的嵌入表示。此外文章还构建了多域数据集n-MDKG,并在n-MDKG和其他三个基准数据集上验证了DuASE的有效性。