要创建一个知识图谱,需要两部分信息:
1. 知识库:可以是文本语料库、代码库、文章集合等。
2. 本体:关心的实体类别及其关系类型。
以创建关于处方药及其相互作用的临床研究的知识图谱为例,可能会使用一个不同的本体,其中化合物、用法、效果、反应等构成本体。
利用大语言模型(LLM)创建知识图谱时,会存在一些挑战:
– 有意义的实体:LLM 提取的实体类别可能过于多样化,可能会错误地将抽象概念标记为实体,如在“比尔博·巴金斯庆祝他的生日并将戒指留给弗罗多”中,可能错误地提取“比尔博·巴金斯庆祝他的生日”或“庆祝他的生日”作为“动作”,而提取“生日”作为“事件”可能更有用。
– 一致的实体:可能在不同的上下文中错误地标记相同的实体,如‘Sauron’、‘the Dark Lord Sauron’和‘the Dark Lord 不应该被提取为不同的实体,或应通过等价关系连接。
– 解析的弹性:LLM 的输出本质上不可预测,要从大文档中提取知识图谱,需将语料库拆分成较小的文本块,然后为每个块生成子图,LLM 必须根据给定的模式一致地输出 JSON 对象,丢失一个可能会对整个图谱的连接性产生不利影响。
此外,目前出现了四种将知识图谱与大语言模型结合的模式:
1. 使用 LLM 创建知识图谱:利用 LLM 的自然语言处理功能处理大规模文本数据,然后让不透明的 LLM 生成透明的知识图谱,知识图谱可检查、质量保证并仔细挑选。
2. 使用知识图谱训练 LLM:不在大规模通用语料库上训练 LLM,而是专门在现有知识图谱上训练,构建精通产品和服务的聊天机器人,能不臆造地回答问题。
3. 在 LLM 交互路径中使用知识图谱丰富查询和响应:拦截 LLM 的消息,用知识图谱的数据对其进行丰富,如结合电影知识图谱的流行电影及其演员信息可丰富提示,从 LLM 返回时可解析嵌入到知识图谱中,为用户提供更多见解。
4. 使用知识图谱创建更好的模型:如华盛顿大学 Yejin Choi 的研究,一个 LLM 由名为“critic”的小型 AI 增强,该 AI 寻找 LLM 响应中的推理错误,同时为后续消费创建知识图谱,以训练一个更准确的“student”模型,该 student 模型规模更小、在许多基准测试上更准确。
总之,创建生成式 AI 知识图谱需要综合考虑多种因素和模式,以克服 LLM 带来的挑战,实现更准确、有用的知识图谱。https://tuingai.com/
暂无评论内容