Science | 使用Evo实现从分子到基因组规模的序列建模与设计

分享一篇发表在Science上的文章，文章标题“Sequence modeling and design from molecular to genome scale with Evo”，文章的通讯作者是来自斯坦福大学的Brian L. Hie教授和UC伯克利的Patrick D. Hsu教授，其中Brian L. Hie教授主要从事蛋白质语言模型的研究。

大语言模型已成功地用于解释生物序列数据。然而，这些模型是模态特异性的，即，它们专门地用于某种特定的生物序列，比如蛋白质序列、RNA序列、DNA中的编码序列等等。这些模型难以建模跨模式的分子互作，比如基因调控（蛋白质-DNA）、CRISPR（蛋白质-RNA）等等。因此本文中，作者开发了一个基于基因组数据的、具有7B参数的模型Evo，并声称它作为一个多模态模型能够实现不同分子的协同设计。

作者将训练数据集限定在原核生物和病毒的基因组中，共包含约270万个基因组。为实现对长序列的建模（预训练中最长的基因组可达10 Mb），作者通过比较不同架构下模型参数量和验证集上困惑度（Perplexity）的关系，最终选择StripedHyena架构用于自回归预测。在一系列预测任务上，比如零样本下的细菌蛋白质适应度预测、ncRNA适应度预测，以及启动子活性预测等任务上均与现有模型表现相当。

随后，为测试Evo的多模态协同设计能力，作者在包含CRISPR-Cas序列的数据集上微调了Evo。以需要设计的Cas系统种类（Cas9、Cas12、Cas13）为输入，微调后的模型能够生成与对应系统相似的序列分布。生成的EvoCas9-1与已知的SpCas9具有73%的氨基酸序列同一性、相当的体外切割活性以及更高的切割效率。

最后，作者在基因组规模上测试了Evo的生成能力。以物种类型为输入，Evo将生成大约1 Mb长的基因组。在很多评估指标上，比如序列的编码密度、编码序列的排布模式、不同终止子的使用频率等等均与天然序列相似。作者还展示了由生成基因组所编码的、由ESMFold所折叠的蛋白质结构。这些结构大部分呈现出球形折叠，并且与自然界中的一些功能蛋白呈现出结构相似性。

本文作者：ZF

责任编辑：WYQ

原文链接：https://doi.org/10.1126/science.ado9336

文章引用：10.1126/science.ado9336