分享一篇发表在Nature上的文章“The genetic architecture of protein stability”,通讯作者是来自西班牙巴塞罗那科学技术研究所的Ben Lehner研究员和Andre J. Faure,他的主要研究方向是通过高通量实验手段结合计算建模获得生物学机理见解。
大规模平行实验可以全面量化蛋白质中单个氨基酸突变的影响,然而由于组合爆炸,高阶突变体的实验分析往往是不可行的,即便是中等数量的随机突变组合也几乎总是会导致蛋白失去功能活性。尽管深度学习已经成功用于各种预测和蛋白质设计任务,包括预测组合突变,但这些模型架构复杂,不具有可解释性。
本文作者试图使用富集功能性蛋白质序列的实验设计来探索高维蛋白质序列空间的遗传结构。在此前的研究(https://www.nature.com/articles/s41586-022-04586-4)中,作者开发了基于蛋白质片段互补(PCA)的策略ddPCA,用于同时量化突变对蛋白质丰度及其相互作用伴侣结合的影响。该策略通过将两种蛋白质与二氢叶酸还原酶(DHFR)的不同片段融合,DHFR的活性可通过细胞生长测量,从而能够定量两种蛋白质之间的结合和单个蛋白的折叠稳定性。作者继续此前的研究,选择接头蛋白GRB2的C端SH3结构域进行研究,考虑到随机突变的任意组合将非常迅速地导致蛋白质解折叠,作者使用了一种启发式的贪婪搜索来富集组合突变体的有效折叠,基于此前的ddPCA研究,确定了能够保留折叠和结合两种表型的最大突变集合为34,随后在2^34(即10^10)量级上合成了文库并进行定量,最终获得了129320种变体的丰度定量值。
作者通过建立简单的单层神经网络能量模型来建模突变效应对ddPCA定量的适应度的影响。简而言之,这种网络假设单突变体的组合效应是可加的。作者发现简单的网络即可实现很好的拟合(Pearson’s r = 0.87)。尽管通过加入二阶项(即考虑突变体之间的相互影响)的确能够进一步提高拟合效果,但这种能量耦合关系在序列空间中是相当稀疏的,且二阶项的强度明显低于一阶项。
作者后续还进行了更多分析和建模证明残基接触、骨架邻近和沿肽链衰减是影响二阶耦合效应的主要因素。且这些发现在另一个案例SRC激酶中也得到了证实。
总之,本文作者通过高通量的实验和建模,提出了一种基于热力学能量模型的理论,表明至少对于某些蛋白质而言,其基因型和表型之间的遗传架构相对简单,突变体的能量效应具有可加性,而高阶能量耦合是相对稀疏的。
本文作者:WFZ
责任编辑:WYQ
原文链接:https://www.nature.com/articles/s41586-024-07966-0
文章引用:DOI:10.1038/s41586-024-07966-0