分享一篇最近发表在Chem上的文章,题目为A high-throughput workflow to analyze sequence-conformation relationships and explore hydrophobic patterning in disordered peptoids。这篇文章的通讯作者是来自美国北卡罗来纳大学的Abigail S. Knight教授。
了解大分子的一级序列如何控制其构象对于阐明其功能至关重要,尽管AlphaFold已经可以非常强大地预测结晶性蛋白的三维构象,但是在预测内在无序蛋白时仍然受限。然而,人体蛋白质组中多达44%的蛋白质含有超过30个残基长度的无序片段,这些蛋白质在细胞信号传导和疾病进展中起着关键作用。除了蛋白质之外,肽类模拟物和合成共聚物也主要表现为无序结构,由于它们的蛋白酶稳定性和化学多样性,它们也是极具吸引力的治疗和递送载体。因此,对序列-构象关系的基本理解对于开发靶向无序蛋白的治疗方法以及推进下一代生物技术至关重要。
传统的序列-构象研究通量较低,难以用数据驱动方法来解释序列-构象关系。在本文中,作者开发了一种用于表征无序高分子构象的高通量工作流程,并通过二级质谱测序来探究序列与构象之间的关系,最后通过统计建模来揭示序列-构象关系(图1)。
基于固相合成方法,作者利用split-and-pool方式,合成了一个长度为20个单元,包含两种单体(甘氨酸和N-丁基甘氨酸)的无序类肽库,这个库中所包含的序列总数为2^20个(~10^6)。这种由固相合成方式得到的类肽库可称为one-bead one-compound(OBOC)库,每个bead上均为相同的序列,估计平均每个bead含有50 pmol的链。
作者用MALDI和二级质谱来表征每个bead上的肽链的序列,MALDI用于表征总体分子量,可以知道组成;二级质谱可以进一步明确序列(图2B)。为了在质谱上有更丰富的信号,作者使用了一段含两个赖氨酸的连接子,在从beads上裂解下来后,所有肽链的C端均会包含该连接子(图2A)。
作者使用一种溶剂致变色探针(Reichardt’s dye)来探究大分子形成的微环境,Reichardt染料会随着环境变化而发生颜色变化,其中较暗的色调对应于更疏水的环境。作者将这些OBOC库与探针孵育,在显微镜下观察它们的颜色并用移液枪分离单个bead,随后去裂解测质谱,为了能更快的确定序列,作者还开发了一个小程序PeptoidSeq用于序列识别(图2C)。
作者将OBOC库与Reichardt染料孵育,观察到广泛的、连续的颜色光谱,表明20mer类肽产生了各种疏水微环境和构象集合(图3A)。作者使用光学显微镜基于颜色相似性将文库的一个子集(177个PEGA beads)分为9组(图3B)。每个颜色类别都有多个库成员,这表明每个构象分类可以被许多不同的序列实现(图3C)。作者基于这些标记数据开发了一个分类模型(image analysis pipeline),用于根据颜色进行自动分类。
图3. 利用Reichardt染料分析类肽库的构象
拍照分析完之后,作者对122个beads进行分离、裂解和测序。如常规预期,疏水残基的数量与染料颜色强度之间存在明显的正相关关系;但是,作者也观察到相同组成的类肽可以表现出不同的染料颜色(图4A),这表明不同组成相同的序列在构象和疏水微环境方面存在差异。作者选择了具有相同50% 疏水残基的三种序列A、B、C做分子动力学模拟,它们表现出不同的疏水微环境。模拟结果表明,A的构象最为紧凑,Rg最小,平均分子内氢键最多;C的构象更为舒展,有更多的无序构象。
最后,作者尝试利用机器学习基于这122个类肽,提炼出序列-构象关系。作者将一整个肽链划分为不同的基序(motif),相当于一个句子由不同的单词构成。作者通过尝试发现motif长度为4时模型表现最好,此时一共有2^4种motif,20个单元组成的类肽就可以被18个motif来描述(图5A),每种motif出现的频率即为模型的输入特征。作者发现“GGGG”、“BGBB”和“BBBB”基序的出现频率对疏水性构象的影响最大,这表明组成和序列都影响了类肽的构象。
总的来说,本研究通过数据驱动的方式探究了序列-结构关系,作者开发了一系列高通量工作流程包括:(1)通过PeptoidSeq脚本对MALDI和二级质谱数据分析来加速序列的测定;(2)创建了图像分析模型ColorClassify来分析超过1000个无序高分子库的构象倾向;(3)开发了数据驱动的方法MotifFold,用于阐明序列-构象关系,并提出了大分子中的基序对于构象的重要性。
DOI: 10.1016/j.chempr.2024.07.025
Link: https://doi.org/10.1016/j.chempr.2024.07.025