在一项新的研究中,来自美国华盛顿大学医学院和哈佛大学的研究人员开发出人工智能软件,并利用它构建出可能作为疫苗、癌症治疗、甚至是将碳污染物从空气中分离出来的工具的蛋白。相关研究结果发表在2022年7月22日的Science期刊上,论文标题为“Scaffolding protein functional sites using deep learning”。
论文共同通讯作者、华盛顿大学医学院生物化学教授David Baker说,“我们在自然界发现的蛋白是神奇的分子,但设计的蛋白可以做得更多。在这项新的研究中,我们发现机器学习可以用来设计具有一系列功能的蛋白。”
几十年来,科学家们一直使用计算机来尝试设计蛋白。一些蛋白,如抗体和合成结合蛋白,已被改进为药物来对抗COVID-19。其他蛋白,如酶,有助于工业生产。但是一个蛋白分子往往包含数千个键合原子;即使有专门的科学软件,它们也很难研究和设计。
受到机器学习算法如何从提示中生成故事甚至图像的启发,这些作者着手构建类似的软件来设计新蛋白。论文共同第一作者、华盛顿大学医学院博士后学者Joseph Watson说,“这个想法是一样的:神经网络可以经训练后观察数据中的模式。一旦经过训练,你可以给它一个提示,看看它是否能产生一个优雅的解决方案。结果往往是引人注目的,甚至是不错的。”
这些作者使用来自蛋白数据库(Protein Data Bank)的信息训练了多个神经网络,该数据库是一个公共资源库,包含了来自所有生命王国的数十万种蛋白结构。所产生的神经网络甚至让构建它们的科学家们感到惊讶。
这些作者开发出两种方法来设计具有新功能的蛋白。第一种称为“幻化(hallucination)”的方法类似于DALL-E或其他生成型人工智能工具,根据简单的提示产生新的输出。第二种称为“图像修复(inpainting)”的方法类似于现代搜索栏和电子邮件客户端中的自动完成功能。
论文共同第一作者、华盛顿大学医学院博士后学者Jue Wang说,“如果被要求,大多数人都能想出猫的新形象,或者根据提示写一段话,但是在蛋白设计方面,人脑无法做到计算机现在能做到的事情。人类只是无法想象解决方案可能是什么样子,但我们设置了机器来做到这一点。”
为了解释神经网络如何“幻化”出一种新的蛋白,这些作者将这比作如何写一本书:“你从一个随机的词语组合开始---完全是胡言乱语。然后你提出一个要求,比如在开头一段,需要是一个黑暗和暴风雨的夜晚。然后计算机将一次一次地改变这些词,并问自己,‘这是否使我的故事更有意义?’如果是,它就会继续修改,直到写出一个完整的故事。”
书籍和蛋白都可以被理解为较长的字母序列。就蛋白而言,每个字母都对应于一个叫做氨基酸的化学构成单元。从一个随机的氨基酸链开始,软件一次又一次地让这一序列发生突变,直到产生一个编码所需功能的最终序列。这些最终的氨基酸序列编码的蛋白随后可以在实验室里制造和研究。
这些作者还发现,神经网络可以在短短几秒钟内填补蛋白结构的缺失部分。这样的软件可能有助于开发新的药物。
Watson解释说,“通过自动完成,或者说‘蛋白图像修复(protein inpainting)’,我们从我们想在一种新蛋白中观察到的关键特征开始,然后让软件想出其余的特征。这些特征可以是已知的结合基序,甚至是酶的活性部位。”
实验室测试显示,许多通过幻化和图像修复产生的蛋白都能发挥预期功能。这包括可以结合金属的新型蛋白,以及结合抗癌受体PD-1的蛋白。
这些新的神经网络可以在短短一秒钟内生成几种不同种类的蛋白,其中包括致命的呼吸道合胞病毒(RSV)的潜在疫苗。
所有的疫苗都是通过向免疫系统提供病原体的一部分来发挥作用的。科学家们通常知道哪一部分最有效,但开发一种能采取理想分子形状的疫苗可能是一种挑战。利用这些新的神经网络,这些作者促使计算机构建新的蛋白,这些蛋白包括必要的病原体片段作为其最终结构的一部分。该软件可以自由地在关键片段周围构建任何支持性结构,从而产生了几种具有不同分子形状的潜在疫苗。
当在实验室进行测试时,这些作者发现,针对RSV的已知抗体附着在他们通过幻化产生的三种蛋白上。这证实了这些新的蛋白采用了它们预定的形状,并表明它们可能是可行的候选疫苗,可以促使身体产生自己的高度特异性抗体。仍然需要进行额外的测试,包括在动物身上。
Wang说,“我开始研究疫苗只是为了测试我们的新方法,但在这个项目进行到一半的时候,我两岁的儿子被RSV感染了,在急诊室里待了一个晚上才把肺部清理干净。这让我意识到,即使是我们正在研究的‘测试’问题实际上也是相当有意义的。”
Baker说,“这些是非常强大的新方法,但仍有很大的改进空间"例如,设计高活性的酶,仍然是非常具有挑战性的。但每个月我们的方法都在不断改进。在过去两年里,深度学习改变了蛋白结构预测;我们现在正处于类似的蛋白设计转变过程中。”(生物谷 Bioon.com)
参考资料:
Jue Wang et al. Scaffolding protein functional sites using deep learning. Science, 2022, doi:10.1126/science.abn2100.
尊敬的 先生/女士
您已注册成功,注册信息及注意事项已发到联系人及参会人邮箱,请注意查收。如未收到,请联系大会联系人。