基于机器学习的肠道菌群数据建模与分析研究综述

疾病预测建模是利用有标记的肠道菌群数据对机器学习模型进行训练,生成一个具备根据输入的肠道菌群数据判断宿主患病情况的预测模型,所以究其本质,疾病预测建模是一个有监督的分类问题。本文结合课题组在该领域的长期研究成果和近年来肠道菌群研究领域中疾病预测建模方面取得的进展,对常用的几种疾病预测建模算法进行分析和比较。

SVM是一种有监督二分类器,当数据线性可分时,SVM通过在原始特征空间中构建一个最优分割超平面并将其作为决策面,最大化正负样本之间的边缘距离。当数据线性不可分时,SVM使用核函数将样本数据映射到一个高维空间,然后寻找一个最优分类超平面隔离不同类别样本数据,从而进行分类。

KNN算法也是一种在肠道菌群分析中广泛应用的算法,该方法的基本原理是根据邻近样本来推断待测样本的类别。主要步骤包括:(1)计算每个测试样本和每个训练样本之间的距离。(2)找到距离最近的k个训练样本作为测试样本的最近邻居。(3)根据k个训练样本类别的众数作为测试样本进行分类。

RF算法是一种集成学习方法,通过自助法重采样技术,从原始训练样本集N中有放回地重复随机抽取n个样本生成新的训练样本集合训练决策树,然后按以上步骤生成m棵决策树组成随机森林,新数据的分类结果按分类树投票多少形成的分数而定。

ANN是一种模仿生物神经网络(动物的中枢神经系统,特别是大脑)结构和功能的计算模型,其具有自学习、自组织、自适应能力,主要包括多层感知机(MultipleLayerPerception,MLP)、卷积神经网络(ConvolutionNeuralNetwork,CNN)、循环神经网络(RecursiveNeuralNetwork,RNN)、深度置信网络(DeepBeliefNetwork,DBN)等。

由于原始数据可能存在缺失值、样本不均衡、数据的形式不规范等问题,这会对模型的性能产生不利影响,严重的可能使得模型无法收敛,从而导致训练失败。在肠道菌群分析中,通过数据预处理过程对数据进行整理,从而使其满足模型训练要求,确保训练过程正常进行。常用的数据预处理操作包括了操作分类单元(OperateTaxonomyUnit,OTU)生成、样本均衡以及改变数据组织形式等。

在基于肠道菌群数据构建预测模型时,利用特征提取手段获取丰富的数据特征是提升模型性能的重要手段。一般而言,特征提取的存在形式有2种:(1)特征提取作为单独一个步骤存在,按照研究人员的预先计划获取相应的特征信息,以这些信息作为模型训练数据进行训练。(2)将特征提取结合到模型训练阶段,通过这种方式获取的特征不会作为数据输出,而是直接由训练算法进行处理,无单独的特征提取阶段。本节主要讨论第一种特征提取形式。

(1)根据数据特点选取建模算法。数据特点包括数据组织形式、数据完备性、数据冗余情况、数据均衡、数据量大小等。如数据存在较多缺失值时,则应优先选取对于数据缺失不敏感的算法,包括ANN、KNN等;如存在样本不均衡问题时可优先选取RF;如若数据量较少则应选择适合小样本训练的算法SVM。

(2)根据模型性能需求选取建模算法。模型的性能需求包括模型处理的是二分类还是多分类问题,模型可解释性、模型处理速度、模型泛化能力等。如针对某一种疾病进行预测建模时,应选择适合处理二分类问题的算法包括SVM等;而在对多种疾病进行预测建模时,则应优先考虑ANN算法。

总而言之,在选取建模算法时需要针对特定的疾病预测建模问题,综合考虑所选算法在多分类能力、可解释性、泛化能力、时空复杂度、数据容错性等方面的情况,并结合现有的研究成果,考虑算法在运用已有研究成果这一问题上的兼容性,选取合适的算法,使所选取的算法能够发挥其在构建特定疾病模型时的性能优势。

(1)正确率(Accuracy),表示所有预测样本中估计正确的样本个数。

(2)错误率(ErrorRate),表示所有预测样本中估计错误的样本个数。

(3)准确率(Precision),表示所有判断为正的样本中实际样本为真的比例。

(4)召回率(Recall),表示所有实际为真的样本中被估计为真的比例。

(5)F1分数(F1Score),表示准确率和召回率的调和平均值。

(6)操作者操作特征曲线(ReceiverOperatingCharacteristic,ROC曲线)反映敏感性和特异性连续变量的综合指标,适用于二分类的情况,ROC曲线上的每个点反映着对同一信号刺激的感受性。横坐标是假正率(FalsePositiveRate),纵坐标是真正率(TruePositiveRate),又称作召回率。

(7)AUC值(AreaUnderCurve),定义为ROC曲线下的面积,适用于二分类的情况,表示当随机挑选一个正样本以及一个负样本,当前的分类算法根据计算得到的Score值将这个正样本排在负样本前面的概率就是AUC值。当然,AUC值越大,当前的分类算法越有可能将正样本排在负样本前面,即能够更好地分类。

在运用机器学习进行疾病预测建模过程中,通常的做法是将数据分为训练集和测试集。测试集是与训练独立的数据,完全不参与训练,用于最终模型的评估。在训练过程中,经常会出现过拟合的问题。如果此时就使用测试数据来调整模型参数,就相当于在训练时已知部分测试数据的信息会影响最终评估结果的准确性。通常的做法是在训练数据中再分出一部分作为验证(Validation)数据,用来评估模型的训练效果。

验证数据取自训练数据,但不参与训练,这样可以相对客观地评估模型对于训练集之外数据的匹配程度。模型在验证数据中的评估常用的是K倍交叉验证,又称循环验证。其将原始数据分成K组(K-Fold),将每个子集数据分别做一次验证集,其余的K-1组子集数据作为训练集,这样会得到K个模型。这K个模型分别在验证集中评估结果,最后的误差MSE(MeanSquaredError)加和平均就得到交叉验证误差。交叉验证有效利用了有限的数据,并且评估结果能够尽可能地接近模型在测试集上的表现,是肠道菌群数据建模中的主要验证手段。

过去的研究已证实,机器学习在解决肠道菌群分类识别的问题上表现出了很好的性能,随着研究的深入,许多科研团队开始探索将机器学习用于构建基于肠道菌群数据的疾病预测模型,根据所采用算法的特点可将其大致分为两类:(1)基于传统机器学习算法的预测模型;(2)基于深度学习算法的预测模型。

在基于机器学习构建的预测模型的发展历程中,最早采用传统的机器学习算法进行模型构建,这些算法包括SVM、RF、KNN等。这类算法普遍的特点是简便易操作、处理速度快。

在大数据时代,将肠道菌群大数据转化为有价值的知识是肠道菌群研究中面临的重要挑战之一。深度学习是机器学习的分支,其特点是具有强大的学习能力和灵活性。近年来,深度学习得到了迅速发展,在各个领域都展现出了巨大的性能优势。

通过横向比较可得出以下分析结果:(1)基于DeepMicro构建的模型在性能上优于基于MetAML构建的模型。(2)基于DeepMicro构建的模型性能稳定性更高,预测性能基本维持在较高水平,而基于MetAML构建的模型性能稳定性较低,会因为数据集的不同而产生较大的变化。(3)存在个别数据集上(如ColorectalCancer)MetAML构建的模型性能优于DeepMicro构建的模型。

本文从肠道菌群数据分析的角度入手,主要针对基于肠道菌群数据构建疾病预测模型这一问题,梳理了肠道菌群研究的发展历程和重要里程碑;根据过往的研究工作,整理出肠道菌群数据分析中常用的7个基准数据集;总结出基于肠道菌群数据构建疾病预测模型的基本流程;重点阐述了近年来传统机器学习和深度学习在构建疾病预测模型中的典型应用。

近年来,图卷积神经网络取得了突破性的进展,其在处理图数据的分类和预测时展现出了强大的性能优势,目前在交通预测、人体行为识别、生物分类等领域均取得了诸多成果。在肠道菌群研究中,系统进化生成树的结构以及菌群之间的关联均可通过图结构进行表示,那么是否可以考虑将肠道菌群分析与图神经网络进行结合,利用图卷积特性分析肠道菌群数据,以此推动肠道菌群分析领域的研究和发展。

综上所述,在未来,机器学习和深度学习方法应该被视为分析肠道菌群的一个重要工具,我们应该积极探索这二者间恰当的结合点,借助计算机科学上的研究成果推动肠道菌群分析的发展,实现将肠道菌群的分析作为临床上诊断、治疗和预防疾病的有力工具。

THE END
1.如何有效学习算法?算法学习算法设计与分析: 算法设计:学习常用的算法设计技巧,如分治法、动态规划、贪心算法、回溯算法等 算法分析:掌握时间复杂度和空间复杂度分析方法 实践练习: 在线平台:使用LeetCode、HackerRank、Codeforces、AtCoder等在线平台进行算法题目练习 项目实践:参与开源项目或自己动手实现一些算法项目,以实际应用加深理解 https://blog.csdn.net/qq_49548132/article/details/140109291
2.机器学习K邻近算法(KNN)简介腾讯云开发者社区在我们遇到的所有机器学习算法中,KNN很容易成为最简单的学习方法。 尽管它很简单,但是事实证明它在某些任务上非常有效(正如您将在本文中看到的那样)。 甚至更好? 它可以用于分类和回归问题! 但是,它广泛用于分类问题。 我很少看到在任何回归任务上实施KNN。我的目的是说明和强调当目标变量本质上是连续的时,KNN如何https://cloud.tencent.com/developer/article/1520927
3.青少年网络信息安全知识竞赛题库(中职(学)版)网络安全16. 以下选项属于对称加密算法 ( D ) A. SHA B. RSA C. MD5 D. AES 17. 假设使用一种加密算法,它的加密方法很简单:将每一个字母加 5,即 a 加密成 f。 这种算法的密钥就是 5,那么它属于 。 ( A ) A. 对称加密技术 B. 分组密码技术 https://www.wxjsxy.com/xxglzx/wlaq/content_11087
4.机器学习(一)2万多字的监督学习模型总结? KNN 算法可以说是最简单的机器学习算法,构建和预测都非常简单。构建模型只需要保存训练数据集即可。想要对新数据点做出预测,算法会在训练数据集中找到最近的数据点,也就是它的“最近邻”。 ?一个邻居:KNN算法最简单的就是一个最近邻,也就是与我们想要预测的数据点最近的训练数据点。预测结果就是这个训练数https://www.flyai.com/article/515
5.如何系统地学习算法?使用深度优先搜索算法即可解决。本题在其基础上加强了难度,有两种方法可解。第一种方法最简单,直接用https://www.zhihu.com/question/20588261/answer/776221336
6.一年级数学准备课教案(精选13篇)我把这一部分教材进行整合,把教材中十几减9和十几减几这两节课的内容整合到第一节课,集中教学计算方法,再安排练习课进行巩固复习。我比较了苏教版和北师大教材,发现用14-9作为例题最为合适,先从实际问题引入14-9,再让学生联系实际情境和生活经验,探索算法。https://www.unjs.com/jiaoan/shuxue/20220713084600_5290225.html
7.《机器学习》第10章降维与度量分析k近邻学习是一种常用的监督学习方法,无需训练训练集,是较为简单的经典机器学习算法之一,可以处理回归问题和分类问题。 其工作机制很简单:给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本,然后基于这k个“邻居”的信息来进行预测。一般来说,我们只选择样本数据集中前k个最相似的数据,这就是k近邻算https://www.jianshu.com/p/db8f15c3fe56
8.《长方形和正方形的周长》说课稿范文(通用14篇)学生在交流的基础上,在多次的计算过程中,会逐步实现多种算法的自我优化。算法多样化并不要求学生都能用几种不同方法解决同一个数学问题,算法多样化的核心是每一个学生个性的思考。在算法多样化的基础上进行优化,帮助学生选择最简单、最方便的计算方法。 5、求护栏的钱数https://xiaoxue.ruiwen.com/shuokegao/99265.html
9.TensorFlow机器学习常用算法解析和入门集成学习就是将很多分类器集成在一起,每个分类器有不同的权重,将这些分类器的分类结果合并在一起,作为最终的分类结果。最初集成方法为贝叶斯决策。 集成算法用一些相对较弱的学习模型独立地就同样的样本进行训练,然后把结果整合起来进行整体预测。集成算法的主要难点在于究竟集成哪些独立的较弱的学习模型以及如何把学习https://www.w3cschool.cn/tensorflow/tensorflow-s8uq24ti.html
10.统计学习方法(豆瓣)读完《统计学习方法》的评价 花了2个星期看完了这本书,觉得作者前半部分写的还是挺用心的。当然前面的内容也比较简单。但是最后面两章写的有些莫名其妙,很多东西都根本没有交代清楚,上来就列个公式,都不告诉你是怎么来的。也可能是我水平有限,不过确实感觉作者在后两章节上写的有点应付得感觉 (展开) 3 2回https://book.douban.com/subject/10590856
11.学习,是治愈焦虑的良药只有不断学习、奔跑、更新自己的知识体系,外界发生的变化才不足以影响我们。 相反,如果我们在焦虑的时期选择躺平、摆烂,却不去学习,还抱怨不休,那么我们就会陷入双重困境,无法自拔。 二、建立一套有意识的学习算法 1.人的学习风格天然存在差异 我曾采访过很多人,包括小朋友,发现每个人的学习方法都不一样。在课堂上https://36kr.com/p/2375197738412036
12.集成学习方法目前来说,同质个体学习器的应用是最广泛的,一般我们常说的集成学习的方法都是指的同质个体学习器。而同质个体学习器使用最多的模型是CART决策树和神经网络。同质个体学习器按照个体学习器之间是否存在依赖关系可以分为两类,第一个是个体学习器之间存在强依赖关系,一系列个体学习器基本都需要串行生成,代表算法是boostinghttps://www.yjbys.com/xuexi/fangfa/1655637.html
13.DizzyK/ustccyber教材: 人工智能导论模型与算法, 高等教育出版社, 吴飞 参考书: 机器学习, 清华大学出版社, 周志华 很有名的一本书, 绰号"西瓜书" 参考书: 神经网络与深度学习, 机械工业出版社, 邱锡鹏 教学内容: 搜索, 知识的表示方式, 确定性逻辑推理, 非精确性概率推理, 统计学习方法, 深度学习, 强化学习与博弈 https://toscode.gitee.com/DizzyK/ustc_cyber_security
14.神经网络和深度学习简史但是,这种灾难性的形容的确可以用来描述深度学习在过去几年中的异军突起——显著改善人们对解决人工智能最难问题方法的驾驭能力,吸引工业巨人(比如谷歌等)的大量投资,研究论文的指数式增长(以及机器学习的研究生生源上升)。在听了数节机器学习课堂,甚至在本科研究中使用它以后,我不禁好奇:这个新的「深度学习」会不会https://mse.xauat.edu.cn/info/1037/2151.htm