人工智能是计算机科学领域一个重要的分支,可概括为通过计算机程序来呈现人类智能活动规律的技术系统。机器学习是人工智能领域重要的组成部分,也是实现人工智能的一个重要途径。机器学习使计算机能够模拟人类的学习行为,自发地通过学习来获得知识和生活技能,也在学习的过程中不断改善自身性能,从而实现自我改善。
机器学习作为实现人工智能的重要方法,无需显式编程即可处理机器的自动学习,主要内容是执行基于数据的预测,在生物信息学领域已经应用广泛。针对于机器学习中的监督式学习、无监督学习、半监督学习以及神经网络在生物信息学中的研究与应用简要介绍如下。
二监督式学习
监督式学习算法是指那些需要外部帮助的算法。算法输入的数据集为训练数据集和测试数据集,训练数据集含有需要预测或分类的输出变量。所有算法都从训练数据集中学习某种模式,并将其应用于测试数据集以进行预测或分类。
决策树
决策树(DecisionTree)是根据属性值来进行排序并且进行分组的树类型,主要用于分类。每棵树都由节点和分支组成,每个节点表示要分类的组的属性,每个分支表示节点可以采用的值。变异检测是二代测序数据分析中的关键链接,包括将一个或者多个样本的reads比对到基因组、检测变异位点和鉴定出每个变异位点基因型等步骤,变异检测的准确性会影响数据的下游分析,从而影响分析结果。
支持向量机
支持向量机(SupportVectorMachine,SVM)是最近广泛使用的一种机器学习技术,按照边距计算的原理,在两个类别之间创建一个决策边界,使边距与类别之间的距离最大,从而使分类的误差最小。蛋白质的三维结构对于详细了解生物分子的功能至关重要,已知蛋白质序列的数量与其实验解析的三维结构之间存在巨大差距。就目前来说,蛋白质结构的成功预测是弥合这一差距的较为实用的方法,而蛋白质结构预测中主要的两个步骤就是对给定的蛋白质序列生成大量的结构模型,以及对这些结构模型进行排列,从而选择最佳的模型。
三无监督学习
无监督学习算法很少从新数据中学习特征,在应用于新的数据时,将采用以前学习的功能来识别数据的类别,主要用于聚类和特征约简。
聚类
聚类(Cluster)是一种无监督的学习技术,使用时会自动创建分组,将具有相似特征的数据放在同一个类群中。K-means是无监督聚类中常用的一种聚类算法,其原理是先随机选取K个对象作为初始的聚类中心,然后计算其他对象与初始聚类中心点的距离,根据距离将每个对象分配给距离它最近的聚类中心点。每次分配一个样本,聚类中心点就会重新计算一次,不断重复这个过程直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小。
降维
降维(DimensionReduction)是一种对具有高维度特征数据的预处理方法,即减少大数据集的维数,保留高维度的数据最重要的一些特征,去除噪声和不重要的特征,从而提升数据的处理速度,在把信息丢失降到最低的同时,使结果更加容易理解。
主成分分析方法(PCA)是无监督学习特征约简中使用最广泛的的降维算法,PCA的主要思想是将n维特征映射到k维上,k维是全新的正交特征也被称为主成分。其中,第一个新坐标轴选择是原始数据中方差最大的方向,第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大的,第三个轴是与第1、2个轴正交的平面中方差最大的。依次类推,一共可以得到n个这样的坐标轴,而这n个坐标轴中,大部分方差都包含在前面k个坐标轴中,后面的坐标轴所含的方差几乎为0。于是就可以只保留前面k个含有绝大部分方差的坐标轴而忽略剩下的坐标轴。事实上,这相当于只保留包含绝大部分方差的维度特征,而忽略包含方差几乎为0的特征维度,从而实现对数据特征的降维处理。
四、半监督学习
半监督学习(Semi-supervisedLearning)使用已经标记的数据和未标记的数据来构造分类器。半监督学习的目的是使用未标记的实例,将未标记数据中的信息与已标记的显示分类信息相结合以提高分类性能,从而改善学习过程中的问题。
自我训练(Self-training)是用于半监督学习的一种迭代方法,它利用现有训练数据得到的模型,先进行预测将标签分配给无标签的数据,然后选择一组新标记的置信度高的数据,并将其添加到训练集中以进行下一次迭代,直到数据集不发生变化为止,不发生变化包括所有的数据都被标注了标签,以及该模型找不到置信度高的预测结果两种情形。基于图的半监督算法基于图的半监督学习算法(Graph-basedSemi-supervisedLearning)用图形来描绘样本空间,用近邻点的位置来控制标记信息的传播。
标签传播算法(LabelPropagationAlgorithm)是一种基于图的半监督学习算法,通过构造图结构(数据点为顶点,点之间的相似性为边)来寻找训练数据中有标签数据和无标签数据的关系。半监督支持向量机标准的支持向量机是基于监督学习的,虽然可以有效地解决各种实际的问题,但是需要手工对大量的样本进行标记,以获得足够的训练样本,效率低而代价高。因此,根据实际需求开发了半监督的支持向量机。半监督支持向量机是基于聚类假设,通过探索未标记的数据来规范以及调整决策的边界。为了利用未标记的数据,半监督支持向量机在原来支持向量机的基础上,对未标记的数据点增加了两个限制。
五、神经网络
神经网络(Neuralnetwork),机器学习的一个重要组成部分,是由多个处理层组成的计算模型,可以用于学习具有抽象特征的数据。神经网络对于深度学习的构建发挥了重要的作用,深度学习通过使用反向传播算法,可以指示机器应该如何更改其内部参数来发现大数据集中的复杂结构,这些内部参数可以根据上一层的指示来计算每一层的指示[43]。深度神经网络和递归神经网络可以应用于预测蛋白质的结构[45-48]、检测远距同源的蛋白质结构[49]和评估蛋白质模型质量[50]等方面。DNA和RNA结合蛋白在基因调控(包括转录和选择性剪接)中起着核心作用,明确DNA和RNA结合蛋白的序列,对于开发生物系统中调控过程的模型以及鉴定疾病的病因变异体至关重要[51]。
六、总结与展望
[1]CharniakE.Introductiontoartificialintelligence[M].PearsonEducationIndia,1985.
[2]HaugelandJ.Artificialintelligence:Theveryidea[M].MITpress,1989.
[3]MichieD,SpiegelhalterDJ,TaylorCC.Machinelearning[J].NeuralandStatisticalClassification,1994,13(1994):1-298.
[4]BergeronBP.Bioinformaticscomputing[M].PrenticeHallProfessional,2003.[5]BaldiP,BrunakS,BachF.Bioinformatics:themachinelearningapproach[M].MITpress,2001.[6]LarranagaP,CalvoB,SantanaR,etal.Machinelearninginbioinformatics[J].Briefingsinbioinformatics,2006,7(1):86-112.[7]LibbrechtMW,NobleWS.Machinelearningapplicationsingeneticsandgenomics[J].NatureReviewsGenetics,2015,16(6):321-332.85[8]LiZ,WangY,WangF.Astudyonfastcallingvariantsfromnext-generationsequencingdatausingdecisiontree[J].BMCbioinformatics,2018,19(1):145.
[9]ChenX,ZhuCC,YinJ.EnsembleofdecisiontreerevealspotentialmiRNA-diseaseassociations[J].PLoScomputationalbiology,2019,15(7):e1007209.
[10]ZhaoB,XueB.Improvingpredictionaccuracyusingdecision-tree-basedmeta-strategyandmulti-thresholdsequential-votingexemplifiedby
miRNAtargetprediction[J].Genomics,2017,109(3-4):227-232.
[11]SikandarA,AnwarW,BajwaUI,etal.Decisiontreebasedapproachesfordetectingproteincomplexinproteinproteininteractionnetwork(PPI)vialink
andsequenceanalysis[J].IEEEAccess,2018,6:22108-22120.
[12]KaurKA,BhutaniL.Areviewonclassificationusingdecisiontree[J].InternationalJournalofComputingandTechnology,2015,2(02).
[13]WongKC.Computationalbiologyandbioinformatics:Generegulation[M].CRCPress,2016.[14]ManavalanB,LeeJ.SVMQA:Support-vector-machine-basedproteinsingle-modelqualityassessment[J].Bioinformatics,2017,33(16):2496-2503.
[15]ManavalanB,ShinTH,LeeG.PVP-SVM:sequence-basedpredictionofphagevirionproteinsusingasupportvectormachine[J].Frontiersin
microbiology,2018,9:476.
[16]CogillS,WangL.SupportvectormachinemodelofdevelopmentalbraingeneexpressiondataforprioritizationofAutismriskgenecandidates[J].Bioin
formatics,2016,32(23):3611-3618.
[17]YuJS,PertusiDA,AdeniranAV,etal.CellSort:asupportvectormachinetoolforoptimizingfluorescence-activatedcellsortingandreducing
experimentaleffort[J].Bioinformatics,2017,33(6):909-916.
[18]HuangS,CaiN,PachecoPP,etal.Applicationsofsupportvectormachine(SVM)learningincancergenomics[J].CancerGenomics-Proteomics,2018,
15(1):41-51.
[19]HuangS,CaiN,PachecoPP,etal.Applicationsofsupportvectormachine(SVM)learningincancergenomics[J].CancerGenomics-Proteomics,2018,
[20]KassambaraA.PracticalguidetoclusteranalysisinR:Unsupervisedmachinelearning[M].STHDA,2017.
[21]TrivediN,KanungoS.PerformanceenhancementofK-meansclusteringalgorithmforgeneexpressiondatausingentropy-basedcentroid
selection[C]//2017InternationalConferenceonComputing,CommunicationandAutomation(ICCCA).IEEE,2017:143-148.
[22]WiwieC,BaumbachJ,RttgerR.Comparingtheperformanceofbiomedicalclusteringmethods[J].Naturemethods,2015,12(11):1033.
[23]ArthurD,VassilvitskiiS.k-means++:Theadvantagesofcarefulseeding[R].Stanford,2006.
[24]KapilS,ChawlaM,AnsariMD.OnK-meansdataclusteringalgorithmwithgeneticalgorithm[C]//2016FourthInternationalConferenceonParallel,
DistributedandGridComputing(PDGC).IEEE,2016:202-206.
[25]FreytagS,TianL,LnnstedtI,etal.ComparisonofclusteringtoolsinRformedium-sized10xGenomicssingle-cellRNA-sequencingdata[J].
F1000Research,2018,7.
[26]WeberLM,RobinsonMD.Comparisonofclusteringmethodsforhigh-dimensionalsingle-cellflowandmasscytometrydata[J].CytometryPartA,
2016,89(12):1084-1096.
[27]SinhaD,KumarA,KumarH,etal.dropClust:efficientclusteringofultra-largescRNA-seqdata[J].Nucleicacidsresearch,2018,46(6):e36-e36.
[28]AbdelRA,SeoudAA,MahmoudMA,etal.BIG-BIO:-bigdatahadoop-basedanalyticclusterframeworkforbioinformatics[C]//2017International
ConferenceonInformatics,Health&Technology(ICIHT).IEEE,2017:1-9.[29]AllabK,LabiodL,NadifM.Simultaneoussemi-NMFandPCAforclustering[C]//2015IEEEInternationalConferenceonDataMining.IEEE,2015:
679-684.
[30]JrsboeE,HanghjK,AlbrechtsenA.fastNGSadmix:admixtureproportionsandprincipalcomponentanalysisofasingleNGSsample[J].Bioinformatics,
2017,33(19):3148-3150.
[31]DavidCC,JacobsDJ.Principalcomponentanalysis:amethodfordeterminingtheessentialdynamicsofproteins[M]//Proteindynamics.HumanaPress,
Totowa,NJ,2014:193-226.
[32]YamamotoH,FujimoriT,SatoH,etal.Statisticalhypothesistestingoffactorloadinginprincipalcomponentanalysisanditsapplicationtometaboliteset
enrichmentanalysis[J].BMCbioinformatics,2014,15(1):51.
[33]LeverJ,KrzywinskiM,AltmanN.Pointsofsignificance:Principalcomponentanalysis[J].2017.
[34]ChanKL,RosliR,TatarinovaTV,etal.Seqping:genepredictionpipelineforplantgenomesusingself-traininggenemodelsandtranscriptomicdata[J].
BMCbioinformatics,2017,18(1):1-7.
[35]JuZ,GuH.Predictingpupylationsitesinprokaryoticproteinsusingsemi-supervisedself-trainingsupportvectormachinealgorithm[J].Analytical
biochemistry,2016,507:1-6.
[36]ChenX,ZhangDH,YouZH.AheterogeneouslabelpropagationapproachtoexplorethepotentialassociationsbetweenmiRNAanddisease[J].
Journaloftranslationalmedicine,2018,16(1):348.
[37]StokesME,BarmadaMM,KambohMI,etal.Theapplicationofnetworklabelpropagationtorankbiomarkersingenome-wideAlzheimer'sdata[J].
BMCgenomics,2014,15(1):282.
[38]ZhangY,LiuJ,LiuX,etal.Prioritizingdiseasegeneswithanimprovedduallabelpropagationframework[J].BMCbioinformatics,2018,19(1):47.
[39]ChaturvediB,PatilN.Anovelsemi-supervisedapproachforproteinsequenceclassification[C]//2015IEEEInternationalAdvanceComputing
Conference(IACC).IEEE,2015:1158-1162.
[40]ZemmalN,AziziN,DeyN,etal.Adaptivesemisupervisedsupportvectormachinesemisupervisedlearningwithfeaturescooperationforbreastcancer
classification[J].JournalofMedicalImagingandHealthInformatics,2016,6(1):53-62.
[41]AngJC,MirzalA,HaronH,etal.Supervised,unsupervised,andsemi-supervisedfeatureselection:areviewongeneselection[J].IEEE/ACMtransactions
oncomputationalbiologyandbioinformatics,2015,13(5):971-989.
[42]MaetschkeSR,MadhamshettiwarPB,DavisMJ,etal.Supervised,semi-supervisedandunsupervisedinferenceofgeneregulatorynetworks[J].Briefings
inbioinformatics,2014,15(2):195-211.
[43]LeCun,Y.,Bengio,Y.&Hinton,G.Deeplearning.Nature521,436-444,2015.
[44]MinS,LeeB,YoonS.Deeplearninginbioinformatics[J].Briefingsinbioinformatics,2017,18(5):851-869.
[45]YangY,HeffernanR,PaliwalK,etal.Spider2:Apackagetopredictsecondarystructure,accessiblesurfacearea,andmain-chaintorsionalanglesbydeep
neuralnetworks[M]//Predictionofproteinsecondarystructure.HumanaPress,NewYork,NY,2017:55-63.
[46]SpencerM,EickholtJ,ChengJ.Adeeplearningnetworkapproachtoabinitioproteinsecondarystructureprediction[J].IEEE/ACMtransactionson
computationalbiologyandbioinformatics,2014,12(1):103-112.
[47]GuoY,WangB,LiW,etal.Proteinsecondarystructurepredictionimprovedbyrecurrentneuralnetworksintegratedwithtwo-dimensional
convolutionalneuralnetworks[J].Journalofbioinformaticsandcomputationalbiology,2018,16(05):1850021.
[48]PanX,RijnbeekP,YanJ,etal.PredictionofRNA-proteinsequenceandstructurebindingpreferencesusingdeepconvolutionalandrecurrentneural
networks[J].BMCgenomics,2018,19(1):51[49]NguyenSP,ShangY,XuD.DL-PRO:Anoveldeeplearningmethodforproteinmodelqualityassessment[C]//2014InternationalJointConference
onNeuralNetworks(IJCNN).IEEE,2014:2071-2078.
[50]ZhengW,WuyunQ,LiY,etal.Detectingdistant-homologyproteinstructuresbyaligningdeepneural-networkbasedcontactmaps[J].PLoS
ComputationalBiology,2019,15(10).
[51]AlipanahiB,DelongA,WeirauchMT,etal.PredictingthesequencespecificitiesofDNA-andRNA-bindingproteinsbydeeplearning[J].Naturebiote
chnology,2015,33(8):831-838.
[52]AlipanahiB,DelongA,WeirauchMT,etal.PredictingthesequencespecificitiesofDNA-andRNA-bindingproteinsbydeeplearning[J].Naturebiote
[53]ZhouJ,TroyanskayaOG.Predictingeffectsofnoncodingvariantswithdeeplearning-basedsequencemodel[J].Naturemethods,2015,12(10):931-934.
[54]ZengH,EdwardsMD,LiuG,etal.ConvolutionalneuralnetworkarchitecturesforpredictingDNA-proteinbinding[J].Bioinformatics,2016,32(12):
i121-i127.
[55]GaoM,BagciU,LuL,etal.HolisticclassificationofCTattenuationpatternsforinterstitiallungdiseasesviadeepconvolutionalneuralnetworks[J].
ComputerMethodsinBiomechanicsandBiomedicalEngineering:Imaging&Visualization,2018,6(1):1-6.
[56]ZengT,LiR,MukkamalaR,etal.Deepconvolutionalneuralnetworksforannotatinggeneexpressionpatternsinthemousebrain[J].BMC
bioinformatics,2015,16(1):147.
[57]HeH,GarciaEA.Learningfromimbalanceddata[J].IEEETransactionsonknowledgeanddataengineering,2009,21(9):1263-1284.
[58]LópezV,FernándezA,GarcíaS,etal.Aninsightintoclassificationwithimbalanceddata:Empiricalresultsandcurrenttrendsonusingdataintrinsic
92
characteristics[J].Informationsciences,2013,250:113-141.