今天为大家介绍的是来自英国伯明翰大学、澳门理工大学ShanHe团队与深圳大学朱泽轩的一篇论文。基于结构的机器学习算法已经被用于预测蛋白质-蛋白质相互作用(PPI)复合物的性质,例如结合亲和力,这对于理解生物机制和疾病治疗至关重要。目前,大多数现有算法在原子级或残基级表示PPI复合物的图结构,但这些表示可能计算成本高昂,或未能充分整合更精细的化学合理性互动细节。作者在此提出了一种几何表示学习框架MCGLPPI,该框架结合了图神经网络(GNNs)与MARTINI分子粗粒度(CG)模型,能够准确且高效地预测PPI整体性质。大量基于三种下游PPI性质预测任务的实验表明,在CG级别上,MCGLPPI相比原子级和残基级方法展现出具有竞争力的性能,但计算资源消耗仅为其三分之一。此外,在蛋白质结构域-结构域相互作用结构上进行CG级别的预训练,进一步增强了其在PPI任务中的预测能力。MCGLPPI为PPI整体性质预测提供了一种高效有效的解决方案,是大规模生物分子相互作用分析的一个有前景的工具。
蛋白质的三维(3D)结构是其生物功能的基础。为了深入理解PPI的生物学意义和其中的详细机制,解析蛋白质复合物的几何结构变得至关重要。在众多计算方法中,图神经网络(GNN)因其在处理蛋白质3D结构方面的卓越能力而脱颖而出。值得注意的是,在基于GNN的方法中,蛋白质被表示为图结构,其中节点对应于重原子(即原子级模型)或氨基酸(即残基级模型)。然而,每种方法都有其权衡。原子级模型尽管细节丰富,但需要处理成千上万个节点,计算资源需求极高,限制了其在大型PPI系统中的应用。而残基级模型计算更加简便,但可能忽略影响特异性和亲和力的关键结合细节。
尽管CG级别建模提高了效率,其模拟仍然比使用AI技术进行PPI预测消耗更多资源。以往将CG级模型与机器学习(ML)或深度学习(DL)方法结合的研究主要集中在优化力场势能参数、预测肽的自组装形状以及将CG级模型还原为原子级结构。然而,将AI与CG建模相结合以预测PPI性质的综合方法仍然是一个尚未深入研究的领域。
MCGLPPI模型部分
图1
作者在MCGLPPI框架中整合了生物分子的CG结构、力场参数以及几何感知的GNN,用于高效预测蛋白质-蛋白质复合物的整体性质。该框架由三个主要部分组成:(1)CG尺度复合物图生成(构建),(2)CG尺度几何表示学习,(3)基于DDI的CG尺度图编码器预训练。框架及其各组成部分的综合概述见图1。以下各分三章节来讲解其各个模块的具体流程步骤。
粗粒度(CG)的复合物图构建
基于结构的蛋白质-蛋白质相互作用(PPI)复合物性质预测通常需要高质量的蛋白质几何图表示学习。图中节点和边的数量会显著影响计算成本。同时,确保图的结构具有化学合理性至关重要,因为这是准确描述蛋白质复合物性质的关键。
在此基础上,作者引入了一种基于粗粒度(CG)尺度的MARTINI参数化方法,旨在高效地在化学合理的相互作用表征与计算成本之间实现平衡。该过程从将原子级的PPI结构转化为CG尺度结构开始,同时生成一套针对MARTINI模型的完整CG尺度力场参数(包括广泛使用的MARTINI2模型和最新的MARTINI3模型,二者的主要区别在于MARTINI3引入了更多的粒子类型和粒子数量,稍微提高了粒子分辨率)。这种简化通过将多个原子组合成少量的代表性粒子,将高分辨率的原子模型简化为计算上更容易执行的形式。生成的参数从不同角度描述了这些粒子之间的化学和物理相互作用(图2)。
图2
在将结构数据与力场参数整合后,构建了一个对应于蛋白质复合物的多关系图(图1a和图2)。在该图中,每个珠子(代表一组重原子)被表示为一个节点。主链珠(B)之间的键,或侧链(S)与侧链或主链珠之间的键,根据其类型和长度定义,被转换为连接这些节点的边。值得注意的是,这些节点和边的数量简洁(即,用于描绘一个蛋白质复合物所需的总数相对较少),从而在保持化学准确性的同时实现高效的蛋白质建模。
粗粒度(CG)的几何表征学习
随后,作者使用了一个基于多关系异构GNN的CG图编码器,该编码器能够高效编码裁剪后图中图节点和边之间的复杂关系。生成的高质量几何表征随后输入到任务特定的预测网络中,从而实现对相应复合物整体属性的准确预测。
基于结构域相互作用的粗粒度图编码器预训练
结构域是蛋白质中的基本结构单元,通常负责特定功能。它们在调节与其他蛋白质的相互作用中起着关键作用,无论是单个复杂蛋白质内的相互作用(蛋白内相互作用),还是两个不同蛋白质之间的相互作用(蛋白间相互作用)。尽管用于蛋白质相互作用(PPI)的详细且标注的三维结构数据较为有限,但丰富的域间相互作用(DDI)结构信息为通过预训练优化计算模型提供了宝贵的机会。为此,作者使用了Three-DimensionalInteractingDomains(3DID)数据库来构建一个数据集,以适配用于预训练CG级图编码器的需求。
作者采用了一种基于去噪的自监督预训练方法,这种方法改编自Zhang等人(唐建团队),用于指导粗粒度图编码器学习域间相互作用(DDI)结构和序列的复杂模式。具体来说,该方法向预训练DDI数据集中的每个CG图引入扰动,然后强制编码器重构原始的图信息,从而使其掌握域间相互作用的基本特性(详见图1c)。在预训练阶段结束后,经过DDI数据集知识增强的编码器将进行微调,以应对下游的蛋白质相互作用(PPI)预测任务。在微调过程中,编码器将预训练中学到的域间相互作用原则应用于下游PPI场景,可能进一步提升其预测能力。
评估实验的设置
为了验证所提出的MCGLPPI框架在PPI复合物整体属性预测中的性能和计算成本,作者首先整理了三个数据集:(1)PDBbind数据集中的严格蛋白质二聚体子集(PDBbind-strict-dimer数据集),(2)ATLAS数据集,以及(3)MANY/DC数据集。前两个数据集用于评估模型的回归能力(蛋白质-蛋白质结合亲和力预测),而MANY/DC数据集用于评估整体分类性能(蛋白质复合物界面分类)。
严格二聚体的结合亲和力预测任务性能
表1
为了进一步研究MCGLPPI在处理超出标准二聚体的复杂PPI结构中的有效性,作者选用了ATLAS数据集。该数据集包含细胞介导免疫过程中形成的TCR-pMHC结构及其相应的结合亲和力值。在移除无效样本、校正样本并统一标签后,获得了531个带有ΔG标签的不同结构。需要注意的是,作者使用了通过Rosetta的固定主链设计选项优化的结构,据报道这些结构具有很高的结构精度。
作者使用相同的实验设置,进行了标准的十折交叉验证,并记录了相应的评估结果。此外,在531个整理后的样本中,有451个可以被原子尺度和残基尺度的GearNet-Edge有效处理,基于这些样本进行了全面的对比实验。
表2展示了在451个样本的ATLAS子集上进行十折交叉验证的预测性能和计算成本。此外,作者报告了MCGLPPI-M2和MCGLPPI-M3在完整ATLAS整理数据集上的最佳表现:RP为0.809/0.823,RMSE为1.116/1.053,MAE为0.837/0.803,GPU内存使用为13,615/16,108MB,总耗时为6982/7915秒。值得注意的是,在处理超出标准二聚体的复杂蛋白质-蛋白质结构时,提出的MCGLPPI模型保持了竞争性的性能,并且与其原子尺度和残基尺度的对应模型相比,展现了相对较低的计算成本。这进一步验证了所设计的基于粗粒度(CG)尺度的蛋白质复合物几何模型及其裁剪功能的有效性。在“图裁剪对模型整体效率的影响”部分还进行了裁剪功能必要性的额外研究。
表2
PPI反应界面分类的预测结果
除了前述的两个亲和力预测的回归任务外,作者还加入了一个蛋白质-蛋白质复合物的整体界面分类任务,以进一步检验MCGLPPI的泛化能力。具体来说,使用了MANY数据集中5739个二聚体和DC数据集中161个二聚体。这些二聚体被划分为两类:具有生物学界面或晶体界面的二聚体。基于这一分类,模型被训练用于区分这两种界面类型,并将其定义为一个二元复杂图分类任务。按照先前的数据划分惯例,MANY数据集中80%的样本作为训练集,20%的样本作为可选验证集,同时使用完整的DC数据集作为测试集进行模型评估(对于MANY数据集的划分,保持了正样本和负样本的平衡)。
实验设置延续了前两节的配置(统一的训练周期数从150调整为30)。此外,作者将方法与两个现有方法DeepRank-GNN和EGGNet进行了对比,这些方法已在完整的MANY/DC数据集上进行了测试。然而,需要注意的是,原子尺度和残基尺度的GearNet-Edge在MANY和DC数据集上的有效样本数量分别为5535和151。此外,像DeepRank-GNN这样的现有方法在节点特征构建时依赖耗时的外部氨基酸序列比对搜索,这使得计算成本的公平比较变得困难。因此,作者仅对其在完整MANY/DC数据集上的预测性能进行了对比,同时针对5535-151样本子集(按前述数据划分模式)对原子尺度和残基尺度的GearNet-Edge模型进行了详细的计算成本对比实验。
计算成本对比实验的结果如表3所示。实验发现,与原子尺度和残基尺度的模型相比,MCGLPPI在计算成本更低的同时,预测能力也更强。具体来说,MCGLPPI-M2和MCGLPPI-M3在批量大小为64的情况下表现出色,其AUROC值分别为0.890和0.882,AUPR值分别为0.871和0.881。总体而言,这两种模型在不同批量大小下的性能均优于原子尺度和残基尺度模型。这种性能提升的原因可能在于MARTINI力场的引入,该力场整合了蛋白质热力学和特定二级结构支持信息,这些信息被注入到粗粒度(CG)复合图的键(边)中,为模型提供了相较于原子尺度和残基尺度模型更强的区分能力。
表3
编译|黄海涛
审稿|王梓旭
参考资料
Yue,Y.,Li,S.,Cheng,Y.,Wang,L.,Hou,T.,Zhu,Z.,&He,S.(2024).Integrationofmolecularcoarse-grainedmodelintogeometricrepresentationlearningframeworkforprotein-proteincomplexpropertyprediction.NatureCommunications,15(1),9629.