蛋白质工程科学家已经能够利用机器学习来设计更有效的蛋白质来执行生化任务。这种方法缩短了通常需要数月至数年的反复试验的过程。
研究人员目前通过在蛋白质的氨基酸序列中引入突变来设计蛋白质,希望这些突变能够赋予蛋白质所需的特性或功能。然后他们必须在实验室中反复测试由此产生的突变蛋白。
“我们能够通过使用机器学习算法来预测不同突变在现实世界中的表现,从而绕过试错法,”描述该方法的论文的第一作者SarahWait说道。研究结果发表在《自然计算科学》杂志上。
Wait是华盛顿大学生物工程系助理教授、该论文的资深作者AndreBerndt实验室的研究生。
“这项研究的影响将是巨大的,”伯恩特说。“这将使蛋白质工程摆脱偶然的方法,并刺激人们更多地投资于机器学习和其他计算方法。”
在这项研究中,研究人员重点研究了一种名为GCaMP的蛋白质,它代表用于光转导的基因编码钙指示剂修饰。GCaMP——发音为“G-camp”——与钙结合时会发出荧光。
这种特性使其成为研究神经细胞功能的理想选择,因为当神经细胞放电时,其中的钙水平会上升。当GCaMP被引入神经细胞时,细胞会在放电时发出荧光。这使得实时监测和分析神经元活动成为可能。
研究人员使用机器学习方法,在现有数据上训练算法来创建统计模型,然后用于分析新数据。
在这种情况下,研究人员对1000多个属性已知的GCaMP版本的氨基酸序列训练了三种算法。已知有些序列效率较高,有些序列效率较低。这使得算法能够开发统计模型,可以识别可能更有效的序列。
除了不同版本蛋白质的序列之外,没有向算法提供其他细节,例如有关蛋白质结构的信息。
研究人员将三种算法的结果结合起来,以增加结果可靠的机会。
“每种算法学习和制定预测的方式都不同,因此我们认为,如果这三种算法都达成了某种共识,那么就一定有其道理,”怀特说。
然后,经过训练的算法分析了属性未知的1,423个GCaMP版本的序列,并预测哪个版本可能是最有效的。
“这些序列我们从未测试过,我们也不知道是否有任何序列会更有效,”怀特说。
他们在候选GCaMP蛋白中寻找的特性是,当暴露于钙时能够发出明亮的荧光,但随后迅速变暗并准备再次发出荧光。这些特性非常理想,因为它们使GCamP能够更准确地揭示快速放电神经元的活动。
“你想要一个更大、更亮、能快速关闭的信号,”韦特说。
机器学习算法确定了GCaMP的三个有前途的版本。随后的实验室测试发现,这三种蛋白都比之前报道的任何GCaMP蛋白更亮、更快。一种名为eGCAMP2+的变体的亮度是目前最先进版本的两倍。
Wait指出,该方法可用于研究任何蛋白质,而不仅仅是GCaMP。
“它是公正的,这意味着它不关心它看到的突变数据集,因此研究人员可以使用这个平台来评估其他感兴趣的蛋白质,”她说。
Berndt指出,在短短几个月内,算法就能够发现显着改进的G-CaMP版本,而这些版本花费了20多年的时间并投入了大量资源来开发。