导读 大型语言模型 (LLM) 可以完成抽象推理任务,但它们也容易犯许多人类会犯的错误。Andrew Lampinen、Ishita Dasgupta 及其同事在三类推...
大型语言模型 (LLM) 可以完成抽象推理任务,但它们也容易犯许多人类会犯的错误。Andrew Lampinen、Ishita Dasgupta 及其同事在三类推理任务上测试了最先进的 LLM 和人类:自然语言推理、判断三段论的逻辑有效性和 Wason 选择任务。
作者发现法学硕士与人类一样容易受到类似内容效应的影响。当语义内容合理且可信时,人类和法学硕士都更有可能错误地将无效论证标记为有效。
在 Wason 选择任务中,法学硕士的表现与人类一样糟糕。在该任务中,参与者会看到四张写有字母或数字的卡片(例如“D”、“F”、“3”和“7”),并被问及他们需要翻转哪些卡片来验证规则的准确性,例如“如果一张卡片的一面是‘D’,那么另一面就是‘3’”。
人类通常会选择翻转那些不提供任何有关规则有效性信息但可以测试反面规则的卡片。在这个例子中,人类倾向于选择标有“3”的卡片,即使规则并不暗示标有“3”的卡片反面会有“D”。LLM 会犯这种错误和其他错误,但总体错误率与人类相似。
如果将有关任意字母和数字的规则替换为社会相关关系(例如人们的年龄以及一个人是否饮酒或喝苏打水),人类和法学硕士在 Wason 选择任务中的表现会有所提高。据作者称,用人类数据训练的法学硕士似乎在推理方面表现出一些人类的弱点——并且像人类一样,可能需要正式训练来提高他们的逻辑推理能力。