测试大型语言模型的生物推理能力

来源：生活2023-12-20 11:30:57

导读大型语言模型 (LLM) 是先进的深度学习算法，可以处理书面或口头提示并生成响应这些提示的文本。这些模型最近变得越来越流行，现在正在帮...

大型语言模型 (LLM) 是先进的深度学习算法，可以处理书面或口头提示并生成响应这些提示的文本。这些模型最近变得越来越流行，现在正在帮助许多用户创建长文档的摘要、获得品牌名称的灵感、找到简单查询的快速答案以及生成各种其他类型的文本。

佐治亚大学和梅奥诊所的研究人员最近开始评估不同法学硕士的生物学知识和推理能力。他们的论文预先发布在arXiv服务器上，表明 OpenAI 的模型 GPT-4 在推理生物学问题方面比市场上其他主要的法学硕士表现更好。

“我们最近发表的文章证明了人工智能对生物研究的重大影响，”最近论文的合著者刘正亮告诉 Tech Xplore。“这项研究诞生于法学硕士的快速采用和发展，特别是在 2022 年 11 月 ChatGPT 的显着引入之后。这些进步被视为迈向通用人工智能 (AGI) 的关键步骤，标志着从传统生物技术方法到人工智能方法的转变。生物学领域以人工智能为中心的方法论。”

在最近的研究中，刘和他的同事着手更好地了解法学硕士作为进行生物学研究的工具的潜在价值。虽然过去的许多研究强调这些模型在广泛领域的实用性，但它们推理生物数据和概念的能力尚未得到深入评估。

“本文的主要目标是评估和比较领先的法学硕士(例如 GPT-4、GPT-3.5、PaLM2、Claude2 和 SenseNova)理解和推理生物学相关问题的能力，”Liu说。“这是通过包含 108 个问题的多项选择考试进行的仔细评估，涵盖分子生物学、生物技术、代谢工程和合成生物学等不同领域。”

刘和他的同事计划确定当今一些最著名的法学硕士如何处理和分析生物信息，同时评估他们产生相关生物学假设和解决生物学相关逻辑推理任务的能力。研究人员使用多项选择测试比较了五种不同法学硕士的表现。

“多项选择测试通常用于评估法学硕士，因为测试结果可以轻松评分/评估/比较，”该论文的合著者 Jason Holmes 解释道。“对于这项研究，生物学专家设计了包含几个子类别的 108 个问题多项选择测试。”

霍姆斯和他们的同事向法学硕士询问了他们编制的测试中的每个问题五次。然而，每次有人问问题时，他们都会改变措辞方式。

“对每个法学硕士多次询问同一问题的目的是确定平均表现和答案的平均变化，”霍姆斯解释道。“我们改变了措辞，以免意外地将我们的结果基于导致性能变化的最佳或次优指令措辞。这种方法还让我们了解性能在现实世界使用中将如何变化，用户将在其中不要以同样的方式问问题。”

刘、霍姆斯和他们的同事进行的测试收集了不同法学硕士在协助生物学研究人员方面的潜在效用的见解。总体而言，他们的结果表明法学硕士对各种生物学相关问题反应良好，同时也能准确地关联植根于基础分子生物学、常见分子生物学、代谢工程和合成生物学的概念。

“值得注意的是，GPT-4 在接受检查的法学硕士中表现出了卓越的性能，在使用不同提示的五项试验中，我们的多项选择测试平均得分为 90 分，”该论文的合著者新宇宫说。

“除了获得总体最高测试分数之外，GPT-4 在整个试验中还表现出极大的一致性，突显了其与同行模型相比在生物学推理方面的可靠性。这些发现强调了 GPT-4 协助生物学研究和教育的巨大能力。”

该研究团队最近的研究可能很快会激发更多的工作，进一步探索法学硕士在生物学领域的可用性。迄今为止收集的结果表明，法学硕士可以成为研究和教育的有用工具，例如支持学生的生物学辅导、创建交互式学习工具以及创建可测试的生物学假设。

“本质上，我们的论文代表了将先进人工智能(尤其是法学硕士)的能力与复杂且快速发展的生物学领域相融合的开创性努力，”刘说。“它标志着生物学研究的新篇章，将人工智能定位为不仅是一种支持工具，而且是导航和破译广阔而复杂的生物景观的核心要素。”

法学硕士的未来发展及其对生物数据的进一步培训可以为重要的科学发现铺平道路，同时也可以创建更先进的教育工具。刘、霍姆斯、龚和他们的同事现在正计划在这一领域进行进一步的研究。

在接下来的工作中，他们首先计划制定策略来克服与使用 GPT-4(支撑 ChatGPT 的法学硕士)相关的计算需求和隐私相关问题。这可以通过开发开源法学硕士来自动化基因注释和表型-基因型配对等任务来实现。

“我们将利用 GPT-4 的知识蒸馏，创建指令跟踪数据来微调 LLaMA 基础模型等本地模型，”该论文的合著者 Zihao Wu 告诉 Tech Xplore。

“该策略将利用 GPT-4 的功能，同时解决隐私和成本问题，使生物学界更容易使用先进的工具。此外，借助 GPT-4V 的视觉功能，我们将把我们的研究扩展到多模式分析，重点关注天然药物分子，例如抗癌剂或疫苗佐剂，特别是那些生物合成途径未知的药物。”

“我们将研究它们的化学和生物合成途径以及潜在应用。GPT-4V 识别分子结构的能力将增强我们对复杂多模式数据的分析，促进我们对合成生物学药物发现和开发的理解和应用。”

关键词：

首页 > 生活 > 正文

测试大型语言模型的生物推理能力

猜你喜欢

最新文章

点击排行

使用vivoX90Pro一周足以让我知道我的下一部手机会是什么

以不到 99 美元的价格购买高端三星 Galaxy Buds 2 Pro

Galaxy A34 的 Android 14稳定更新扩展到亚洲

Netflix在Twitter上面临密码共享打击的强烈反对

CD Projekt首席执行官否认索尼收购传闻

小米推出功能强大且价格便宜的吹风机价格不到40欧元

小米13 Ultra在欧洲的价格可能比预期的更实惠

OnePlus Ace 2 Pro发布时间表和显示规格泄露

对电子游戏的最大研究表明男性角色说的次数是女性角色的两倍

流行病杀死了埃拉特湾的所有黑海胆对埃拉特的珊瑚礁构成威胁

热门文章

测试大型语言模型的生物推理能力

定制雅马哈XV1100CafeRacer在各个方面改进了ViragoFormula

吉利新金电池充电功率达500kW

夏季紫丁香色摩托罗拉Razr今天加入TMobile的Metro

这款4K游戏投影仪已获得Xbox认可但它没有利用SeriesX的最大功能

小米手环8Pro准备征服西班牙

购买三星小米或谷歌的顶级手机最高可享受300欧元折扣

OPPOA985GvsRedmiNote12Pro5G智能手机哪款中端手机更好

科学家们创造了可调节的外壳来封装微小的液滴

主题可以让您将经过事实检查的帖子进一步推送到您的提要中

首页 > 生活 > 正文

测试大型语言模型的生物推理能力

猜你喜欢

最新文章

点击排行

使用vivoX90Pro一周足以让我知道我的下一部手机会是什么

以不到 99 美元的价格购买高端三星 Galaxy Buds 2 Pro

Galaxy A34 的 Android 14稳定更新扩展到亚洲

Netflix在Twitter上面临密码共享打击的强烈反对

CD Projekt首席执行官否认索尼收购传闻

小米推出功能强大且价格便宜的吹风机 价格不到40欧元

小米13 Ultra在欧洲的价格可能比预期的更实惠

OnePlus Ace 2 Pro发布时间表和显示规格泄露

对电子游戏的最大研究表明 男性角色说的次数是女性角色的两倍

流行病杀死了埃拉特湾的所有黑海胆 对埃拉特的珊瑚礁构成威胁

热门文章

测试大型语言模型的生物推理能力

定制雅马哈XV1100CafeRacer在各个方面改进了ViragoFormula

吉利新金电池充电功率达500kW

夏季紫丁香色摩托罗拉Razr今天加入TMobile的Metro

这款4K游戏投影仪已获得Xbox认可但它没有利用SeriesX的最大功能

小米手环8Pro准备征服西班牙

购买三星 小米或谷歌的顶级手机最高可享受300欧元折扣

OPPOA985GvsRedmiNote12Pro5G智能手机哪款中端手机更好

科学家们创造了可调节的外壳来封装微小的液滴

主题可以让您将经过事实检查的帖子进一步推送到您的提要中

小米推出功能强大且价格便宜的吹风机价格不到40欧元

对电子游戏的最大研究表明男性角色说的次数是女性角色的两倍

流行病杀死了埃拉特湾的所有黑海胆对埃拉特的珊瑚礁构成威胁

购买三星小米或谷歌的顶级手机最高可享受300欧元折扣