预训练模型的在蛋白质结构建模中的应用及挑战--怡心湖

蛋白质结构建模的预训练

在自然语言的理解与生成中，对语言的建模本质上是对序列的建模，因此，以上提到的预训练技术也可以应用到其他序列建模任务中。除了自然语言和时间序列，人们第一时间想到的另一种长序列就是生物中的蛋白质序列。蛋白质是组成人体一切细胞、组织的重要成分，机体所有重要的组成部分都需要有蛋白质的参与。对蛋白质进行科学的序列建模，能够直接造福于临床医学、制药等事关人类生命健康的重要产业。蛋白质和基因序列预训练模型将蛋白质和基因序列作为训练输入，以此为基础探索人工智能在生命科学中的应用。人类在生物和医学等领域丰富的研究成果积累了大量蛋白质和基因序列数据，为构建这样的模型系统提供了坚实的基础。具体来说，通过对蛋白质的预训练，我们可以探索预训练模型在以下几个方向的应用。

蛋白质结构预测：蛋白质研究中最重要的问题之一是蛋白质二级结构预测。蛋白质的二级结构是了解蛋白质功能的一个重要特征，特别是当感兴趣的蛋白质在进化上与具有已知结构的蛋白质不相关时。蛋白质二级结构预测工具通常用于为更高级别的模型构建提供更丰富的输入特征。从机器学习的角度来看，蛋白质二级结构预测可以看成是一种序列到序列（seq2seq）的任务，从输入的氨基酸映射到表示螺旋或折叠的标签。预训练好的大规模蛋白质语言模型只需通过少量相应的数据进行微调即可。

蛋白质和药物设计：蛋白质结构预测任务是通过已知的氨基酸序列预测结构。除此之外，更难的蛋白质设计任务是已知蛋白质结构来推导氨基酸序列，或者在两者皆不确定的情况下同时设计结构和序列。这样的任务可以在抗体设计中找到应用。如果我们将设计目标定位为生成小分子而不是蛋白质大分子，那么就可以在制药任务中找到应用。除上述两个方向之外，预训练蛋白质模型还可以应用在细胞分类、基因调控关系发现、细菌耐药性分析等任务中，前景广阔。

在这一方向上，Facebook AI Research（FAIR）在2020年发布了具有十亿参数规模的ESM模型。ESM在近2.5亿蛋白质序列上进行了训练，并在一系列蛋白质下游监督学习任务中取得了显著的效果。2021年，FAIR又进一步发布了基于生物学多序列比对（Multiple Sequence Alignment，MSA）的ESM-MSA-1模型，以更少的参数量再次刷新原ESM模型的结果。

继续阅读：蛋白质模型训练

此文由怡心湖编辑，若您觉得有益，欢迎分享转发！：首页 > 常识论 » 预训练模型的在蛋白质结构建模中的应用及挑战

相关推荐