大型语言模型(LLM)是旨在理解和生成人类语言的机器学习模型。最先进的LLM在开放域问答(ODQA)中展现出了卓越的潜力,该模型的任务是提供事实问题的答案。
这在金融、医疗保健和教育等领域尤其有用。然而,法学硕士通常依靠他们预先训练过的知识来回答在不断变化的世界中可能过时的问题。
可以通过使用带有预训练LLM的检索增强生成(RAG)来解决此限制。在这种方法中,问题会使用知识库中的文档进行增强。尽管取得了这些进步,但LLM通常会生成冗长的响应,提供上下文信息,这会使识别准确的答案短语变得困难且耗时。
LLM的另一个重要方面是它们能够生成置信度分数,这反映了模型对其答案的正确性的确定程度。这些分数在金融、法律和医疗保健等高风险领域尤其重要。虽然LLM可以为特定响应生成序列概率,但这种概率在校准方面通常不可靠。
这意味着预测的置信度可能与正确性概率不准确相关,不应用作置信度分数。无法识别准确的答案短语并产生可靠的置信度分数限制了LLM的实际应用。
为了解决这些限制,日本先端科学技术大学院大学的一个研究小组在NguyenLeMinh教授的带领下,包括博士生Nguyen-KhangLe和Dieu-HienNguyen在内的研究人员提出了一种名为答案前缀生成(ANSPRE)的新方法。
“ANSPRE可以提高LLM的生成质量,使其能够输出准确的答案短语,并产生可靠的置信度分数。此外,它可以融入任何LLM和复杂架构中,”Nguyen教授说。他们的研究将在10月19日至24日在西班牙圣地亚哥德孔波斯特拉举行的第27届欧洲人工智能大会ECAI-2024上发表。
ANSPRE的主要思想是将一系列文本添加到LLM提示中,以引导出答案短语。这一系列文本称为“答案前缀”。
Nguyen教授解释道:“考虑这样一个示例问题:‘第一次世界大战期间流行的需要两枚硬币才能玩的赌博游戏是什么?’这个问题的答案前缀可以是‘第一次世界大战期间流行的需要两枚硬币才能玩的赌博游戏是___。’由于大多数法学硕士都接受过因果语言模型的训练,因此使用答案前缀可以让法学硕士生成准确的答案短语来代替空白。”
给定一个问题,ANSPRE首先使用选定的少样本示例生成答案前缀。研究人员证明,只需几个手工制作的示例就足以生成高质量的答案前缀。然后,ANSPRE使用现有的检索器从知识库中收集相关文档,类似于RAG。
它将文档、问题和答案前缀结合起来,并提示LLM生成答案短语。最后,ANSPRE汇总用于回答问题的不同文档中的答案短语和置信度分数,以生成最终答案。
研究人员通过构建自反思答案前缀生成(SELF-ANSPRE)展示了ANSPRE的多功能性,该生成将ANSPRE与自反思RAG(SEFT-RAG)相结合。
SEFT-RAG通过引入反射标记来决定何时以及从知识库中检索什么,并根据文档和答案的实用性对响应进行排名,从而改进了LLM生成。在SELF-ANSPRE中,ANSPRE的置信度分数和反射标记的分数相结合,以生成最终的排名分数。
研究人员在三个ODQA基准和各种LLM架构上测试了ANSPRE。结果表明,ANSPRE显著改善了预训练和指令调整的LLMS,产生了与正确性高度相关的高质量答案和置信度分数。此外,SELF-ANSPRE显著增强了SEFT-RAG。他们的分析还强调了每个ANSPRE组件的重要性。
“我们的方法可以在医疗诊断、法律援助和教育等关键领域提供更简洁、更准确的问题解答,并改善客户支持。此外,从长远来看,我们的研究可以通过提高对人工智能系统的信任来促进人类与人工智能的广泛合作,”阮教授说。
总体而言,这种创新方法标志着法学硕士向前迈出了重要一步,并可以使其得到更广泛的应用,即使在敏感领域也是如此。