收稿日期:2021年2月8日;录用日期:2021年3月3日;发布日期:2021年3月12日
摘要
酶是由活细胞产生的、对其底物具有高度特异性和高度催化效能的蛋白质或RNA,具有多种催化功能的酶被称为多功能酶。细胞是高度精细的复杂有机网络,多功能酶是常见的重要代谢反应的参与者,参与多个细胞代谢网络。在数据挖掘和机器学习领域,对酶的研究可以看作是一项预测任务。本文从机器学习的角度对关于多功能酶的研究作了一个深入的回顾。从方法和应用的角度,讨论的建模方法包括数据预处理、分类算法和模型评估等技术。对于应用方面,对现有的多功能酶应用领域提供了一个全面的分类,然后对各类别的应用进行了详细说明。最后,结合经验和判断,总结了一些建议,为多功能酶领域的进一步研究提供了方向。
关键词
生物信息学,多功能酶,多标签,机器学习
ClassificationTechnologyandApplicationofMultifunctionalEnzymes
PengliBi
SchoolofInformationScienceandEngineering,YunnanUniversity,KunmingYunnan
Received:Feb.8th,2021;accepted:Mar.3rd,2021;published:Mar.12th,2021
ABSTRACT
EnzymesareproteinsorRNAsproducedbylivingcells,whicharehighlyspecificandhighlycatalyticfortheirsubstrates.Enzymeswithmultiplecatalyticfunctionsarecalledmultifunctionalenzymes.Cellsarehighlysophisticatedandcomplexorganicnetworks,andmultifunctionalenzymesarecommonparticipantsinimportantmetabolicreactionsandparticipateinmultiplecellularmetabolicnetworks.Inthefieldofdataminingandmachinelearning,theresearchofenzymescanberegardedasapredictiontask.Thearticleprovidesanin-depthreviewoftheresearchonenzymesfromtheperspectiveofmachinelearning.Fromtheperspectiveofmethodsandapplications,themodelingmethodsdiscussedincludedatapreprocessing,classificationalgorithms,andmodelevaluation.Forapplication,acomprehensiveclassificationisprovidedfortheexistingmultifunctionalenzymeapplicationfields,andthentheapplicationofeachcategoryisdescribedindetail.Finally,combinedwithexperienceandjudgment,somesuggestionsinthepaperaresummarized,whichprovidesadirectionforfurtherresearchinthefieldofmultifunctionalenzymes.
Keywords:Bioinformatics,MultifunctionalEnzyme,Multi-Label,MachineLearning
ThisworkislicensedundertheCreativeCommonsAttributionInternationalLicense(CCBY4.0).
1.引言
1999年Jeffery将一类同时具有两种或两种以上功能的蛋白质称为兼职蛋白质[1],还对兼职蛋白质的概念进行了严格的限定。经过研究表明,功能明确的兼职蛋白质大部分是酶蛋白,即除了已经具备的催化功能外还具有其他的生物学功能,这些功能涵盖了两种情况:一是产生催化混杂的现象[2],二是与调节作用有关的功能。这类具有多种功能的酶被称为多功能酶。在数据挖掘领域,关于多功能酶的研究是一个预测问题,通常是一个数据分类问题。虽然数据挖掘方法已被广泛应用于建立分类模型来指导预测任务,但对多功能酶这类多标签的分类模型构成了重大的挑战。多标签分类与传统的分类问题相比较,主要难点有以下两个:
1)类标签的数量不确定,有的样本可能只有一个类标签,而有的样本的类标签可能高达几十个;
2)类标签之间存在依赖,怎样解决类标签之间的依赖性也是一个难点。
为了解决多功能酶分类问题,在过去人们已经开发了机器学习方法,其中大部分是基于样本技术和集成方法等[3]。尽管已经发表了一些与多功能酶分类有关的研究[4][5][6],但大都集中于技术方面,而忽略了应用方面的探索,关于多功能酶这个大类的应用研究综述少之又少。对于生物学等领域的研究人员来说,使用先进的学习技术和成熟有效的方法解决多功能酶分类预测的问题可能比使用复杂的算法更为重要。
本文目的是提供一个关于多功能酶研究的全面概述,包括方法和应用两方面。在方法层面,介绍了研究多功能酶的常用方法,包括预处理、分类和评价。在应用方面,回顾了多功能酶在不同研究领域的应用。最后我们从方法和应用两方面讨论了未来对于多功能酶研究方向的思考,并在第5节进行了全文总结。
2.研究方法和初步统计
2.1.研究方法
Figure1.Two-stagekeywordstreestructure
2.2.初步统计
Figure2.Publicationtrendofmultifunctionalenzymeresearch
Figure3.Top13journals/conferencesonwhichmostmultifunctionalenzymeresearch
Figure4.Wordcloudofthetitlewordsfromthecollectedpaper
3.解决多功能酶分类问题的基本策略
3.1.预处理
步骤1:仅收集关键词为“多功能酶”的序列;
步骤2:删除标注“fragment”的序列;
步骤3:根据实验需要,去除长度小于N的氨基酸残基的序列,因为这些序列可能属于片段;
步骤4:为了减少冗余性和同源性的影响,我们通常使用CD-HIT程序排除这些酶与同一亚群中任何其他酶在成对序列相似度超过m%的酶(m根据实验需求设定,最小为40)。
3.2.多功能酶样本的表示
3.2.1.氨基酸组成(AAC)
蛋白质序列由20种常见的氨基酸组成,氨基酸组成的特征表达就是计算各种氨基酸在待测蛋白质序列中出现的频率[9]。虽然用AAC可以预测很多蛋白质属性[10][11],但是存在一个致命缺点,即如果使用AAC作为唯一的特征提取方法来提取蛋白质信息,则其所有的序列顺序和序列长度信息将丢失。因此为了避免这样的情况发生,Chou[12]提出了伪氨基酸组成(PseAAC)来代替氨基酸组成(AAC)。
3.2.2.伪氨基酸组成(PseAAC)
伪氨基酸组成最早是由Chou在2001年提出来的,随后PseAAC的思想广泛应用于蛋白质组学、生物信息学和系统生物学[13],比如预测蛋白质亚细胞定位[14],预测DNA结合蛋白质[15],氨基酸的分类[16],预测酶家族分类[17],预测蛋白质四级结构属性[18],鉴别外膜蛋白[19]。目前,PseAAC被用来处理DNA领域的问题,例如识别核小体[20]和预测重组点[21]。
3.2.3.SAAC(SplitAminoAcidComposition)
Table1.Summaryofarticlesemployingfeatureselectionorextractionmethods
3.3.分类算法
针对多功能酶研究的多标签学习系统,一个良好的多标签分类算法对预测效果有着至关重要的作用。多标签数据学习方法依据问题解决的角度,主要分为两种。
Table2.Commonmethodsinproblemconversionmethods
Figure5.Commonmulti-labelclassificationmodels
Table3.Representativearticleonclassificationalgorithm
3.4.评价指标
模型选择和模型评价是机器学习中的两个关键过程。因此,性能度量是评价分类器有效性和指导分类器学习的关键指标。多标签学习系统的性能评价不同于传统的单标签学习系统。在单标签系统中常用的评价指标包括:精确率、正确率、召回率和F-Score等[39],但对于多标签学习系统这些评价指标要
4.多功能酶的应用
4.1.应用领域的分类
Table4.Applicationdomaincategories
4.2.各个领域的详细介绍
(一)多功能酶在疾病领域的研究热点主要包括:预后治疗和控制影响某种疾病的激素,如通过控制胰岛素对糖尿病人进行治疗;
(三)在病毒这一领域的应用,近年来主要讨论了多功能酶与登革病毒的关系;
Table5.Applicationsinvariousfields
5.总结与展望
(一)方法方面:可以尝试其他的特征选择方法获得我们所需要的实验数据,然后经过特征融合的方法将特征进行融合使我们的实验数据能够更好的表达它的意义;此外作为一种提高弱学习者分类性能的好方法,基于集成的算法目前已被广泛用于解决一些多分类学习任务。WangandYao[89]认为集成模型的性能取决于单个分类器的准确性和所有分类器之间的多样性,未来可以尝试将多标签学习算法中的分类器进行集成,以获得更好的性能。往后可以将重心放在多标签学习两大难点上,开发新的算法去解决标签依赖性以及类标不平衡的问题。
(二)应用方面:回顾第3节的应用分布,只有2篇文献讨论了多功能酶在病毒研究领域方面的应用,由于新药研发已经进入到了以生物靶标为核心的时代,特别是以计算机模拟结构来设计药物的出现使得药物设计理念得到了进一步的完善,未来可以在这个方面做更多的工作;另一个有价值的研究方向是在其他应用领域中,多功能酶的应用较广,从生物合成到畜牧水产都有涉猎,尤其近年来多功能酶在畜牧、水产、养蜂方面有很大的应用成果。现在人们更加注重健康与营养,怎样提高产品的产量与质量也是一个需要继续攻克的难题。