确定生物分子的 3-D 形状是现代生物学和医学发现中最困难的问题之一。公司和研究机构经常花费数百万美元来确定分子结构——即使如此巨大的努力也经常失败。
斯坦福大学博士使用聪明的新机器学习技术。在计算机科学副教授 Ron Dror 的指导下,学生 Stephan Eismann 和 Raphael Townshend 开发了一种方法,通过计算预测准确的结构来克服这个问题。
最值得注意的是,即使仅从少数已知结构中学习,他们的方法也能成功,使其适用于结构最难通过实验确定的分子类型。
他们的工作是体现在两个文件详细说明了RNA分子和多蛋白复合物,发表在应用 科学 上2021年8月27日,并在 蛋白质 分别于2020年12月,。Science 上的论文 是与斯坦福大学生物化学副教授 Rhiju Das 实验室的合作。
“结构生物学是对分子形状的研究,它有这样的口头禅,即结构决定功能,”汤森说。
研究人员设计的算法可以预测准确的分子结构,从而使科学家能够解释不同分子的工作原理,应用范围从基础生物学研究到知情药物设计实践。
“蛋白质是执行各种功能的分子机器。为了执行它们的功能,蛋白质通常会与其他蛋白质结合,”艾斯曼说。“如果你知道一对蛋白质与疾病有关,并且你知道它们在 3-D 中如何相互作用,你可以尝试用药物非常具体地针对这种相互作用。”
Eismann 和 Townshend 是 科学 论文与斯坦福大学 Das 实验室的博士后学者 Andrew Watkins 的共同主要作者,也是蛋白质 论文与前斯坦福大学博士的共同主要作者 。学生纳撒尼尔·托马斯。
设计算法
研究人员没有具体说明是什么使结构预测或多或少准确,而是让算法自己发现这些分子特征。他们这样做是因为他们发现提供此类知识的传统技术可以使算法偏向于某些特征,从而阻止它找到其他信息特征。
“算法中这些手工制作的特征的问题在于,算法偏向于选择这些特征的人认为重要的东西,你可能会错过一些你需要做得更好的信息,”艾斯曼说。
“该网络学会了找到对分子结构形成至关重要的基本概念,但没有被明确告知,”汤森德说。“令人兴奋的是,该算法清楚地恢复了我们知道很重要的东西,但它也恢复了我们以前不知道的特征。”
在蛋白质方面取得成功后,研究人员接下来将他们的算法应用于另一类重要的生物分子 RNA。他们在他们所在领域长期竞争的一系列“RNA 拼图”中测试了他们的算法,在每种情况下,该工具都优于所有其他拼图参与者,并且没有专门为 RNA 结构设计。
更广泛的应用
研究人员很高兴看到他们的方法可以应用于其他地方,他们已经在蛋白质复合物和 RNA 分子方面取得了成功。
“机器学习最近取得的大部分重大进展都需要大量数据进行训练。这种方法在训练数据很少的情况下取得成功的事实表明,相关方法可以解决许多数据稀缺领域中未解决的问题,” Dror 说,他是Proteins 论文的资深作者, 并且与 Das 是 Science 论文的共同资深作者。
特别是对于结构生物学,该团队表示,就将要取得的科学进展而言,他们只是触及了皮毛。
Townshend 说:“一旦你掌握了这项基本技术,那么你的理解水平就会提高一步,并可以开始提出下一组问题。” “例如,你可以利用这种信息开始设计新的分子和药物,这是一个人们非常兴奋的领域。”
科学论文的其他合著者包括斯坦福大学博士。学生 Ramya Rangan 和 Maria Karelina。蛋白质论文的其他合著者包括前斯坦福大学学生 Milind Jagota 和 Bowen Jing。