主题1:深度神经网络在QSAR研究中的效果
QSAR全称Quantitativestructure-activityrelationship,译为定量构效关系,是指使用数学模型来描述分子结构和分子的某种生物活性之间的关系。
药物研发中一般QSAR应用的两个最成功的机器学习算法是随机森林(RF)和深度神经网络(deepneuralnetworks,DNN),在2013年Kaggle挑战赛(KaggleMerckMolecularActivityChallenge2013)和2015年的Tox21挑战赛(Tox21DataChallenge2015)后,DNN成为药物发现中QSAR应用的首选方法。
DNN在某些情况下很有效,DNN方法涉及包含数万个分子的非常大的数据集,其表现优于RF等更传统的方法。
论文1
《AnalyzingLearnedMolecularRepresentationsforPropertyPrediction》
内容简介:
对图形卷积神经网络和现有的采用的模型进行比较,在19个公共和16个专有的工业数据集上对模型进行广泛的基准测试。此外介绍了一个图卷积模型,该模型在公共和专有数据集上始终与使用固定分子描述符的模型以及以前的图神经结构相匹配或优于后者。
论文地址:
论文2
《ImprovementinADMETPredictionwithMultitaskDeepFeaturization》
论文3
《The(Re)-EvolutionofQuantitativeStructure–ActivityRelationship(QSAR)StudiesPropelledbytheSurgeofMachineLearningMethods》
评估了几种机器学习方法的能力,偏最小二乘法(PLS)、RF、支持向量回归(SVR)和梯度提升树(XGBoost),以预测非加性SAR。使用了Kramer(NonadditivityAnalysis作者)以前发表的一种方法来识别具有加性和非加性SAR的匹配分子对。然后用这些配对来构建不同预测难度的子集。该分析考虑了四种检测方法的数据集,LogD,solubilityinDMSO,clearanceinlivermicrosomes及permeability(celllinenotspecified)。在大多数情况下,DNN在加性和非加性子集上的表现都优于其他方法。
但DNN并非任何时候都是QSAR研究中的首选方法。
论文4
《Simplenearest-neighbouranalysismeetstheaccuracyofcompoundpotencypredictionsusingcomplexmachinelearningmodels》
化合物效力预测是机器学习在药物发现中的一个普遍应用,而深度学习是否能进一步推进效力预测仍不清楚。简单的近邻分析法始终符合或超过了被视为该领域最先进的机器学习方法的准确性。
论文5
《ExposingtheLimitationsofMolecularMachineLearningwithActivityCliffs》
作者构建了包含活性悬崖的数据集,并评估了机器学习模型预测这些现实但具有挑战性的数据集的能力。该分析包括许多传统的机器学习方法,包括RF、梯度提升机(GBM)、SVR和kNN。为了对算法和表征进行基准测试,作者将几个指纹和描述符集与前面提到的算法进行了耦合。此外,该研究还包括一系列DNN方法,包括消息传递神经网络(MPNN)、图卷积神经网络(GCN)、图注意转化器(GAT)和注意指纹(AFP)。这些方法是根据它们使用来自ChEMBL的30个数据集预测生物活性的能力来评估的。作者报告了在活性悬崖分子上计算的均方根误差(RMSE)和RMSEcliff。结果SVM、GBM和RF加上ECFPs在整体和活性悬崖数据集上都提供了最佳性能。
这些论文的重要性提现在两方面,一是它们帮助消除了DNN总是QSAR模型的最佳选择这一看法。二是引入了新的、更现实的基准数据集和策略,希望能取代日常使用的一些有缺陷的基准。
主题2:深度学习为蛋白质-配体对接提供新方法
2022年新的蛋白质-配体对接方法出现,使用现有的蛋白质-配体复合物的结构来学习配体和蛋白质结合位点之间的关系,并搜索整个蛋白质表面。本质上这些程序同时解决了两个问题;确定结合位点和确定配体的对接姿势。
《EquiBind:GeometricDeepLearningforDrugBindingStructurePrediction》
麻省理工学院提出EquBind对接程序,该程序使用深度学习将蛋白质上的一组点与配体上的对应点对齐。
《DiffDock:DiffusionSteps,Twists,andTurnsforMolecularDocking》
研究1中的团队还开发了一种新的生成方法来解决对接问题。DiffDock方法使用扩散迭代搜索空间的平移,旋转和扭转变化。DiffDock的搜索过程由一个新颖的可信度评分指导,它允许在多个姿势之间进行选择。
《TANKBind:Trigonometry-AwareNeuralNetworKsforDrug-ProteinBindingStructurePrediction》
Galixir技术公司的一个小组通过叫做TANKBind的对接程序扩展了研究1方法,该程序评估蛋白质上多个位点的对接姿势,并选择得分最高的姿势。
论文链接:
E3Bind:AnEnd-to-EndEquivariantNetworkforProtein-LigandDocking
Mila-Quebec人工智能研究所发明了E3Bind对接方法。该方法受AlphaFold2启发,结合了三种嵌入方式,分别描述了蛋白质图、配体图和蛋白质-配体图,后者通过迭代改进生成对接姿势。
《PredictingProtein–LigandDockingStructurewithGraphNeuralNetwork》
MedusaGraph方法使用GNN预测蛋白质-配体对接。该方法涉及两个GNN:姿势预测GNN和姿势选择GNN,前者建议可能的结合姿势,后者执行二元分类以评估给定姿势的质量。
30年来,对接一直被用于基于结构的药物设计中,DNN的进展促进了新的对接程序的发展。这些程序使用来自蛋白质数据库(PDB)的数据来训练函数,函数可以识别结合位点提出和评估结合姿势。
这些方法虽然强大,但可能很难成为基准。原因是难以确定这些方法是否发现了新的相互作用,这些方法可能只是从类似的结合位点和配体转移信息。
主题3:蛋白质结构预测
推动AlphaFold2向新方向发展
2022年,PSP,译为蛋白质结构预测(proteinstructureprediction)领域进展迅速。PSP在分子建模中发挥着重要的作用。
《PredictionofmultipleconformationalstatesbycombiningsequenceclusteringwithAlphaFold2》
AlphaFold2生成蛋白质结果的初始步骤是MSA,即多重序列比对(multiplesequencealignment)。通过修改MSA可以生成多种蛋白质构象。Wayment-Steele采用一种通过序列相似性对MSA进行聚类并使用聚类产生多个蛋白质构象状态的方法。这种方法称为AF-Cluster。
《AlphaFold2-RAVE:FromsequencetoBoltzmannensemble》
计算化学家提出PSP产生的结构是否可以用于分子建模的问题。以下的论文提供了回答这一问题的第一步。
《AreDeepLearningStructuralModelsSufficientlyAccurateforFree-EnergyCalculationsApplicationofFEP+toAlphaFold2-PredictedStructures》
《EvaluationofAlphaFold2structuresasdockingtargets》
上述论文体现AlphaFold2的结构似乎可以在FEP计算中发挥一些作用,分子动力学模拟允许一些侧链重排。然而当将AlphaFold2结构与蛋白质晶体结构进行对接比较时,Scripps的一个研究小组发现,AlphaFold2结构在侧链中不包含必要的分辨率来进行精确的对接计算。
《CanAlphaFold2predicttheimpactofmissensemutationsonstructure》
在如肿瘤学和遗传性疾病等的治疗领域中,如果可以了解错义突变的结构影响,能促进治疗方法的设计。
人们对AlphaFold2能否可靠地模拟错义突变有不同的看法。来自NCI的一个小组将AlphaFold2预测的结构与3个系统的X射线结构进行比较。其中野生型蛋白的X射线结构是可用的,并且存在特定的结构破坏性突变。在所有三种情况下,AlphaFold2预测的突变体和WT的结构相似,但未能识别结构破坏性突变。
论文6
《UsingAlphaFoldtopredicttheimpactofsinglemutationsonproteinstabilityandfunction》
该论文发现AlphaFold2结构没有再现实验观察到的与单一突变有关的蛋白质稳定性或荧光的变化。
论文7
《AccurateMutationEffectPredictionusingRoseTTAFold》
不是所有突变的结构影响都不可被预测。该论文证明RosettaFold可以预测蛋白质突变的结构影响。
2022年见证了AlphaFold2如何扩展并并应用于药物发现中的各种问题,期待人工智能在PSP领域更进一步发展。
主题4:模型可解释性
虽然机器学习模型可以有效地选择和优先考虑用于合成的分子,但大多数模型作为"黑箱"操作,将化学结构作为输入,产生预测作为输出。
理想情况下是可解释的模型能提供深入的解释以推动后续化合物的设计。
可解释的模型有以下几个优势:
*培养实验者信心。如果实验者了解预测结果背后的原因,会更加相信模型的预测结果。
*促进模型的调试。如果能更理解预测结果背后的推理,就可以做出调整来改进模型。
*促进对基础科学的理解。一个可解释的模型有助于阐明潜在的物理过程,了解化学结构和物理或生物之间的联系。
《InterpretationofStructureActivityRelationshipsinReal-WorldDrugDesignDataSetsUsingExplainableArtificialIntelligence》
这篇论文对XAI,译为可解释人工智能(explainableartificialintelligence)做综述。该论文展示了几种XAI方法,以及强调对活动至关重要的特征的热图视觉化。
《Modelagnosticgenerationofcounterfactualexplanationsformolecules》
该论文使用了反事实解释,这种技术已被用于解释几个领域的机器学习模型,包括信用风险评估。
《Explainingmolecularpropertieswithnaturallanguage》
White小组使用语言模型为机器学习模型的预测创建基于文本的解释。不过文中的例子还没有说服药物化学家。
《APerspectiveOnExplanationsOfMolecularPredictionModels》
White小组的另一篇论文,全面概述了QSAR和其他领域的可解释模型。
论文5-6
《EdgeSHAPer:Bond-centricShapleyvalue-basedexplanationmethodforgraphneuralnetworks》
《CalculationofexactShapleyvaluesforsupportvectormachineswithTanimotokernelenablesmodelinterpretation》
Shapley值被用于评估机器学习模型中特征的贡献。Bajorath小组的两篇论文展示了这一技术如何应用于分子的机器学习。
《ChemInformaticsModelExplorer(CIME):exploratoryanalysisofchemicalmodelexplanations》
将化学结构与机器学习模型预测联系起来需要一些软件工具,辅助将模型预测和化学结果的映射可视化。拜耳公司的这篇论文提出一个用于解释机器学习模型和可视化原子贡献的开源工具。
虽然模型的可解释性已经成为一些研究工作的组成部分,但还没有完善的actionablemodels。从可解释的模型中得到洞察力,并为优化提供明确的方向。这也是该领域希望达到的进展。
主题5:质量管理方法
《Auto3D:AutomaticGenerationoftheLow-Energy3DStructureswithANINeuralNetworkPotentials》
近年出现了用机器学习方法快速重现量子化学势,但该方法实际应用有局限。卡内基梅隆大学Isayev小组的研发的软件包Auto3D可以改变这种情况,使量子化学势非常容易使用。Auto3D接受SMILES作为输入,生成和评估三维构象的集合,并提供同位素和立体异构体的能量排名。
主题6:超大型化学库
虚拟筛选中突破性改变是按需合成库的出现,如EnamineREAL,WuXiGalaXi,OtavaCHEMryia和eMoleculeseXplore。这些库由数十亿个分子组成,可以以合理的成本快速交付,让人重新思考现在的虚拟筛选方法。
这种方法适用于包含数百万分子的数据集的方法,在考虑包含数百亿分子的库时就不再适用。
《ExplorationofUltralargeCompoundCollectionsforDrugDiscovery》
这份说明是美国国家卫生院超大型化学库研讨会的发言人合作文件,为了解该领域提供了很好的概述。
《ComparisonofCombinatorialFragmentSpacesandItsApplicationtoUltralargeMake-on-DemandCompoundCatalogs》
当化学库的规模达到数百亿时,像确定两个库中哪些分子是共同的这样简单的任务就变得繁琐而耗时。与其对数十亿个分子进行配对比较,不如比较用于构建库的化学构件。然而由于多种化学途径可以导致同一组产品,因此采用一种使用适当片段策略的方法是至关重要的。
来自MatthisRarey小组的一篇论文使用这样的碎片化策略开发了一个名为SpaceCompare的软件工具,可以用它来比较REAL、GalaXi和CHEMyria数据库。让人惊讶的结论是三个数据库中的分子之间的重叠度非常低。任何两个数据库之间最大的重叠量都不到总量的2%。
《CalculatingandOptimizingPhysicochemicalPropertyDistributionsofLargeCombinatorialFragmentSpaces》
过去5年间,商业上可用的分子数量从10亿增长到600多亿。该领域需要开发新的方法,以便对这些超大型库进行基于结构或配体的搜索。
主题7:主动学习
主动学习是一种迭代技术,使研究人员能够有效地在大空间中搜索。这种方法使用机器学习模型来选择和标记数据点并探索一个特定的化学空间。
《EfficientExplorationofChemicalSpacewithDockingandDeepLearning》
在该论文作者的工作中,主动学习被用来指导与大型化学库的对接计算。主动学习过程从一个初始样本开始,这个初始样本可以随机选择,也可以通过其他一些方法,如聚类。然后对接最初采样的分子子集,并使用分子的化学结构和对接分数来训练机器学习模型。机器学习模型用于为更广泛的数据库生成预测,模型预测被用来选择下一组要对接的分子。经过几次迭代后,主动学习过程确定要进行到下一步的分子
《Self-FocusingVirtualScreeningwithActiveDesignSpacePruning》
虽然机器学习比分子对接等方法快了几个数量级,但在一个有数十亿行的表格上进行推理并不容易。麻省理工学院Coley小组的这篇论文提供了一种修剪大型数据集并有效减少机器学习算法所预测的分子数量的方法。
论文3-5
《ChemicalSpaceExplorationwithActiveLearningandAlchemicalFreeEnergies》
《ActiveLearningGuidedDrugDesignLeadOptimizationBasedonRelativeBindingFreeEnergyModeling》
《Optimizingactivelearningforfreeenergycalculations》
自由能微扰(FEP)计算已经成为计算驱动的基于结构的药物发现项目的支柱。虽然这些计算很强大,但它们的计算成本也很高,一次计算需要几个小时才能完成。克服这些计算上的限制的一种方法是使用主动学习结合FEP来搜索大型化学库。这些论文是几个研究小组探索的主动学习在自由能计算中的应用。
《CoverageScore:AModelAgnosticMethodtoEfficientlyExploreChemicalSpace》
主动学习的另一面是用于选择分子的抽样策略。一些小组报告了指导选择的替代方法。来自Exscientia的团队发布了CoverageScore的方法,该方法使用贝叶斯优化和信息熵来平衡主动学习过程中的探索和开发。
《BatchedBayesianOptimizationforDrugDesigninNoisyEnvironments》
药物研发的早期阶段的一个挑战是根据有些嘈杂的主要检测数据决定哪些化合物需要进展。剑桥大学的研究小组发表了一种贝叶斯主动学习方法,该方法考虑了检测数据中的固有噪声。
EnamineREAL、WuXiGalaXi和Otava的CHEMriya等按需合成库的出现,扩大了虚拟筛选的范围。不过即使有了廉价的云计算资源,拥有数十亿分子的虚拟筛选也是相当昂贵的。
主动学习提供了一种对接超大型数据库的有效方法。此外,主动学习可以对成千上万的分子库进行FEP计算。随着这类技术工作发展,它们将被整合到实验工作流中。
主题8:分子表示
药物研发中早期应用机器学习时,分子由指纹表示,其中向量中的位置表示特定分子特征的存在、缺失或计数。CNN和GNN的出现导致了学习分子表示的出现。虽然这些学习表示有可能胜过指纹模型的结果,但它们的优越性还有待证明。如第一节所提到的,最近的研究结果表明,使用指纹表示的更传统的机器学习方法提供了与更复杂的技术相当的性能,有时甚至更优。
《TakingaRespitefromRepresentationLearningforMolecularPropertyPrediction》
该论文对分子表示、指纹和基于SMILES和分子图谱的自我监督表示这三种盛行的方法进行了概述。作者回顾了分子表示和在比较表示和算法时必须考虑的几个混杂因素。
论文2-5
《ChemBERTa-2:TowardsChemicalFoundationModels》
《BARTSmiles:GenerativeMaskedLanguageModelsforMolecularRepresentations》
《Large-ScaleChemicalLanguageRepresentationsCaptureMolecularStructureandProperties》
《InfusingLinguisticKnowledgeofSMILESintoChemicalLanguageModels》
2022年机器学习的关键进展之一是大型语言模型(LLM)的出现。ChatGPT这样的大型语言模型进入了公众意识。这里的几篇论文显示了LLM如何用于处理SMILES字符串库,随后产生可用于QASR和生成模型的化学语言模型。
迄今为止,LLM在QSAR任务中的表现并不突出。虽然LLM表示已经应用于分子性质预测,但它们在基准测试中的表现并不突出。LLM在一些有缺陷的基准上表现出与更广泛使用的技术相当的性能。LLM是一个非常新的领域,它在分子特性预测中还处于起步阶段。人们希望LLM的未来发展带来新的分子表示方法。
过去的十年中,几种神经网络的方法出现在分子表示上。虽然这些方法有望提供一个额外的抽象层次,但还没有一个明确的证据表明它们比早期使用分子描述符和指纹的方法更有优势。
随着该领域不断发展,希望通过纳入三维信息方法更充分地捕捉到潜在的分子相互作用。第1节中讨论的新基准应该提供一个更严格的方法来比较现有的基准集。