尽管它们通常能提供令人印象深刻的结果,但使用大型语言模型的Meta和OpenAI等人工智能引擎仍然缺乏基本的推理能力。苹果支持的团队提出了一项新的基准,该基准已经表明,查询中即使是最细微的措辞变化也会导致完全不同的答案。
本月初,由苹果公司支持的六名人工智能科学家组成的团队发表了一项研究,他们引入了GSM-Symbolic,这是一种新的人工智能基准,它“可以实现更可控的评估,为衡量模型的推理能力提供关键见解和更可靠的指标。”遗憾的是,使用GSM-Symbolic与Meta和OpenAI等行业巨头的人工智能引擎进行的初步测试显示,法学硕士似乎仍然受到严重限制,缺乏最基本的推理能力。
上述测试表明,现有模型的问题在于,在面对类似查询时,法学硕士(LLM)缺乏可靠性。研究得出的结论是,对人类来说,轻微的措辞变化不会改变查询的含义,但通常会导致人工智能机器人给出不同的答案。研究没有突出任何突出的模型。
“具体来说,即使GSM-Symbolic基准测试中仅改变问题中的数值,所有模型的性能都会下降。”
研究得出结论,还发现
“这些模型中数学推理的脆弱性表明,随着问题中从句数量的增加,它们的性能会显著下降。”
这项研究共有22页,可在此处找到(PDF文件)。最后两页包含一些在最后添加的不相关信息的问题,这些信息不会改变人类解决问题的最终结果。然而,所使用的AI模型也考虑到了这些部分,因此给出了错误的答案。
总之,人工智能模型仍然无法超越模式识别,仍然缺乏可推广的问题解决能力。今年,有不少法学硕士被推出,包括MetaAI的Llama3.1、Nvidia的Nemotron-4、Anthropic的Claude3、日本的Fugaku-LLM(有史以来最大的仅依靠CPU能力训练的模型)以及本月早些时候推出的法学硕士系列RubikAI的Nova。