论文浅尝 | SEMMA:一种语义感知的知识图谱基座模型(EMNLP2025)
01动机知识图谱基座模型KGFMs通过学习可迁移的结构模式在对未见图谱进行零样本推理方面展现出了巨大潜力Galkin 等人2024a。然而现有的 KGFM 大多仅依赖于图的拓扑结构往往忽略了关系标识符Relation Identifiers中蕴含的丰富文本语义信号Arun 等人2025。这种局限性在极具挑战性的泛化场景中尤为致命当测试阶段遇到训练集中从未出现的全新关系词汇时纯结构化方法因缺乏对应的结构模式而发生“塌陷”Collapse。尽管大语言模型LLMs具备强大的文本理解与泛化能力但现有研究鲜有将其有效地整合进 KGFM 的归纳推理框架中。鉴于此本文提出了一种双模块基座模型 SEMMA通过利用 LLM 对关系文本进行语义增强并构建“文本关系图”将可迁移的文本语义与图结构特征进行系统性融合从而在结构信号稀疏或完全未见的场景下实现鲁棒的链接预测。02贡献本文的主要贡献包括1提出一个新的框架SEMMA这是一种结合了图结构与文本语义的双模块知识图谱基座模型KGFM。该模型利用大语言模型LLM对关系标识符进行语义增强构建了“文本关系图Textual Relation Graph”并将其与结构化关系图进行系统性融合从而在零样本Zero-shot场景下有效利用了被传统方法忽视的丰富文本语义信号。2实验结果表明SEMMA 在全归纳Fully Inductive链接预测任务上具有显著优势。在涵盖 54 个不同领域知识图谱的广泛实验中SEMMA 的表现优于目前最先进的纯结构化基线模型如 ULTRA证明了将文本语义引入基座模型的有效性。3提出证据证明文本语义对于处理完全未见的关系词汇至关重要。在一种更具挑战性的泛化设置实验中即测试时的关系词汇与训练集完全不重复纯结构化方法会发生性能“塌陷”而 SEMMA 凭借其语义感知能力在此类场景下的有效性比结构化方法提高了2倍。4识别并缓解了现有基准中的数据泄露问题。论文深入分析了现有KGFM 评估基准中存在的训练集-测试集信息泄露现象并在剔除泄露数据后的“纯净”数据集上进行了严格评估进一步证实了 SEMMA 在真实零样本场景下具备稳健的泛化能力。03方法图1 SEMMA 的核心架构SEMMA 的核心架构采用了双模块并行设计旨在同时利用知识图谱中的结构模式和文本语义。如图1 所示模型主要由三个部分组成基于LLM 的文本语义处理模块图下半部分蓝色区域系结构化处理模块图上半部分红色区域融合与预测模块图右半部分紫色区域。文本语义处理模块 (Textual Semantic Processing)与传统的仅依赖结构嵌入的方法不同SEMMA 首先利用大语言模型LLM的通用知识来增强关系标识符的语义表达。模型使用零样本提示Zero-shot Prompting将原始的、可能晦涩的关系 ID 转换为清晰的自然语言名称并生成捕捉核心语义的简短描述 。随后这些文本描述被编码为向量嵌入并依据嵌入之间的余弦相似度构建一个加权的“文本关系图”。在该图中语义相似的关系通过加权边相连模型利用支持加权消息传递的 NBFNet 在此图上进行推理从而生成富含语义感知的关系表示。结构化处理模块 (Structure Processing)为了保持对图拓扑特征的强大捕捉能力SEMMA 并行运行一个结构化处理流如图 2 上方红色区域所示。该模块沿用了 ULTRA 的设计理念将原始知识图谱提升为一个“结构关系图”。在这个元图中节点代表关系边则捕获了关系之间原本存在的拓扑交互模式如头对头、尾对尾连接等而不依赖具体的实体或关系词汇 。通过在此结构图上应用 NBFNet模型能够学习到可迁移的结构推理模式确保在缺乏语义信息或语义模糊的场景下仍能进行有效的逻辑推理。融合与预测模块 (Fusion and Prediction)最终阶段的目标是将上述两条路径的互补信号进行整合。来自文本关系图的语义表示和来自结构关系图的结构表示通过一个多层感知机MLP进行投影和融合以合并语义细微差别与拓扑特征 。融合后的关系表示随后被注入到实体级的 NBFNet 中用于在原始图谱上执行最终的消息传递和链接预测任务 。如图 2 右侧所示这种模块化融合机制使得 SEMMA 能够在完全归纳Fully Inductive的设置下利用文本语义“桥接”未见过的关系从而解决纯结构化模型在冷启动场景下的“塌陷”问题。04实验实验设置与数据集为了验证 SEMMA 的泛化能力研究团队采用了与 ULTRA 相同的严格评估设置。模型仅在 3 个知识图谱上进行预训练随后在54 个多样化的知识图谱上进行零样本Zero-shot推理测试 。这些测试集涵盖了三种不同的泛化难度直推式 (Transductive)实体和关系在训练中均已见。半归纳式 (Inductive e)仅实体未见关系已知。全归纳式 (Inductive e,r)实体和关系在训练中均未见这是最具挑战性的场景也是基座模型的核心目标。实验结果表1SEMMA 的零样本结果。零样本链路预测 MRR 和 Hits10 的平均值超过 54 KGs基于 5 次运行。SEMMA 的性能显著优于 ULTRA而 SEMMA HYBRID 则进一步扩大了这种差距。如表一所示SEMMA 在所有三个类别上的平均性能均优于纯结构化基线模型 ULTRA。特别是在全归纳设置下SEMMA 利用文本语义成功弥补了结构信息的缺失。此外论文还设计了一个更贴近现实“冷启动”场景的实验确保测试查询Query中出现的关系词汇与测试图Test Graph中现有的关系完全不重叠Disjoint。在此设置下由于缺乏历史结构交互ULTRA 等纯结构化方法无法区分不同的新关系导致预测结果“塌陷”即对不同关系预测出相同结果如 图2 所示而SEMMA 凭借对关系标识符的语义理解能够准确区分不同的未见关系。图2在查询三元组关系词汇表与测试图关系词汇表不相交的复杂场景下对ULTRA 和 SEMMA 进行了比较。ULTRA 无法区分不同的关系例如 agent collaborates with agent 和 competitions with导致预测结果完全相同且错误。相比之下SEMMA 能够区分这两种关系并在其前 10 个预测结果中正确预测了真实值。研究团队还发现现有的 KGFM 基准中存在严重的数据泄露问题即测试集的图谱结构或三元组在预训练数据中出现过如图3和图4。研究团队在剔除泄露数据后的 22 个“纯净”数据集上进一步测试了SEMMA的性能结果表明其依然保持了对 ULTRA 的性能优势证明了SEMMA真实的泛化能力(见表2)。图3测试图泄漏。在预训练语料库中找到的测试图三元组的百分比表明跨数据集的间接泄漏图4查询三元组泄露率。在预训练语料库中找到的查询三元组所占百分比表明存在跨数据集的直接泄露表2SEMMA 在未泄露数据集上的零样本测试结果。零样本链接预测 MRR 和 Hits10 报告显示在移除泄露数据集后5 次运行的平均结果超过 22 个 KG。SEMMA 的性能仍然优于 ULTRA。05总结本文针对知识图谱基座模型在处理未见关系时的“冷启动”难题提出了一种名为 SEMMA 的创新框架。传统方法如 ULTRA过度依赖图拓扑结构在缺乏历史交互时容易失效而 SEMMA 的核心突破在于系统性引入语义维度。该模型利用大语言模型将关系标识符转化为富含语义的向量构建了与结构图并行的“文本关系图”从而通过“语义桥梁”在零样本场景下实现对新关系的有效理解与推理实验部分不仅在54 个标准数据集上验证了 SEMMA 的优越性更通过设计“完全不相交词汇”的极端测试场景揭示了纯结构化方法的本质缺陷。在这些高难度场景下SEMMA 展现出了惊人的鲁棒性。此外论文还批判性地指出了当前学术界基准数据集中普遍存在的数据泄露问题呼吁建立更严谨的评估标准。总而言之SEMMA 成功证明了“文本语义”与“图结构”并非互斥而是可以相互利用融合的。未来的工作可以进一步探索如何将这一机制扩展至实体层面的语义理解以及如何融合更多模态的信息为构建真正的全能型知识基座模型奠定基础。笔记整理卢宇晨东南大学硕士研究方向为基于大语言模型的信息检索增强任务论文链接https://arxiv.org/abs/2505.20422发表会议EMNLP 2025往期推荐RECOMMEND1静态评测已“过时”OpenKG持续更新LLM知识增强动态评测榜单Dynamic OneEval-2026052论文浅尝 | 利用多智能体大语言模型实现知识图谱自动化增补NeurIPS 20253技术动态 | 从“黑盒”到“透明”大模型如何学会人类的逻辑规则天津大学张小旺教授团队长文综述规则学习30年演进OpenKGOpenKG中文开放知识图谱旨在推动以中文为核心的知识图谱数据的开放、互联及众包并促进知识图谱算法、工具及平台的开源开放。点击阅读原文进入 OpenKG 网站。