分享一篇发表在Nature Communications上的文章,文章标题“Rapid and accurate prediction of protein homo-oligomer symmetry using Seq2Symm”,文章的通讯作者是来自首尔大学的Minkyung Baek教授和微软研究实验室的Meghana Kshirsagar研究员。其中Baek课题组主要研究基于机器学习的生物分子建模。

大部分蛋白质需要组装形成多聚体以行使其生物学功能。同源多聚体中相同亚基的排列赋予了蛋白质对称性,最常见的包括环状对称性Cn和二面体对称性Dn。但是,预测给定单链蛋白质所归属的对称性仍是一个不小的挑战。尽管使用AlphaFold和RoseTTAFold可以很大程度完成此任务,但是它们在计算过程中依赖高质量MSA,并需要对每个可能的链的数量进行逐一预测和评分;这在计算效率上十分低下。本文,作者通过对蛋白质基础模型(protein foundation models,pFMs)的微调,训练得到一个直接预测寡聚体对称性的模型Seq2Symm,并展示了该模型与AlphaFold-Multimer的结合使用可以实现高效的同源寡聚体结构预测。

作者通过微调模型最后几层的参数、添加分类模块构建Seq2Symm。以蛋白质序列或多序列比对(MSA)为输入,Seq2Symm可以直接给出对称性预测。作者比较了不同pFMs(包括RoseTTAFold2、ESM2、ESM-MSA)、不同训练策略(是否微调、是否蒸馏等)的结果,最终得到以ESM2微调的模型,即Seq2Symm。测试集上AUC-PR值为0.47,高于基于模板的方法0.24;同时该模型与AlphaFold-Multimer结合使用,显著降低了多聚物结构的预测时间。

考虑到Seq2Symm出色的预测表现,作者使用此模型预测了五个蛋白质组以及来自UniRef和宏基因组的350 M条序列。其中,五个蛋白质组的预测结果与此前报道的预测结果(文献:An atlas of protein homo-oligomerization across domains of life)分布基本一致;且对称性在简单生物体和复杂生物体中的分布基本一致。

总的来说,本文通过微调ESM2模型开发了以单序列为输入、以蛋白质寡聚体对称性为输出的Seq2Symm模型。
本文作者:ZF
责任编辑:WYQ
DOI:10.1038/s41467-025-57148-3
原文链接:https://doi.org/10.1038/s41467-025-57148-3