基于机器学习的肠道菌群数据建模与分析研究综述

疾病预测建模是利用有标记的肠道菌群数据对机器学习模型进行训练,生成一个具备根据输入的肠道菌群数据判断宿主患病情况的预测模型,所以究其本质,疾病预测建模是一个有监督的分类问题。本文结合课题组在该领域的长期研究成果和近年来肠道菌群研究领域中疾病预测建模方面取得的进展,对常用的几种疾病预测建模算法进行分析和比较。

SVM是一种有监督二分类器,当数据线性可分时,SVM通过在原始特征空间中构建一个最优分割超平面并将其作为决策面,最大化正负样本之间的边缘距离。当数据线性不可分时,SVM使用核函数将样本数据映射到一个高维空间,然后寻找一个最优分类超平面隔离不同类别样本数据,从而进行分类。

KNN算法也是一种在肠道菌群分析中广泛应用的算法,该方法的基本原理是根据邻近样本来推断待测样本的类别。主要步骤包括:(1)计算每个测试样本和每个训练样本之间的距离。(2)找到距离最近的k个训练样本作为测试样本的最近邻居。(3)根据k个训练样本类别的众数作为测试样本进行分类。

RF算法是一种集成学习方法,通过自助法重采样技术,从原始训练样本集N中有放回地重复随机抽取n个样本生成新的训练样本集合训练决策树,然后按以上步骤生成m棵决策树组成随机森林,新数据的分类结果按分类树投票多少形成的分数而定。

ANN是一种模仿生物神经网络(动物的中枢神经系统,特别是大脑)结构和功能的计算模型,其具有自学习、自组织、自适应能力,主要包括多层感知机(MultipleLayerPerception,MLP)、卷积神经网络(ConvolutionNeuralNetwork,CNN)、循环神经网络(RecursiveNeuralNetwork,RNN)、深度置信网络(DeepBeliefNetwork,DBN)等。

由于原始数据可能存在缺失值、样本不均衡、数据的形式不规范等问题,这会对模型的性能产生不利影响,严重的可能使得模型无法收敛,从而导致训练失败。在肠道菌群分析中,通过数据预处理过程对数据进行整理,从而使其满足模型训练要求,确保训练过程正常进行。常用的数据预处理操作包括了操作分类单元(OperateTaxonomyUnit,OTU)生成、样本均衡以及改变数据组织形式等。

在基于肠道菌群数据构建预测模型时,利用特征提取手段获取丰富的数据特征是提升模型性能的重要手段。一般而言,特征提取的存在形式有2种:(1)特征提取作为单独一个步骤存在,按照研究人员的预先计划获取相应的特征信息,以这些信息作为模型训练数据进行训练。(2)将特征提取结合到模型训练阶段,通过这种方式获取的特征不会作为数据输出,而是直接由训练算法进行处理,无单独的特征提取阶段。本节主要讨论第一种特征提取形式。

(1)根据数据特点选取建模算法。数据特点包括数据组织形式、数据完备性、数据冗余情况、数据均衡、数据量大小等。如数据存在较多缺失值时,则应优先选取对于数据缺失不敏感的算法,包括ANN、KNN等;如存在样本不均衡问题时可优先选取RF;如若数据量较少则应选择适合小样本训练的算法SVM。

(2)根据模型性能需求选取建模算法。模型的性能需求包括模型处理的是二分类还是多分类问题,模型可解释性、模型处理速度、模型泛化能力等。如针对某一种疾病进行预测建模时,应选择适合处理二分类问题的算法包括SVM等;而在对多种疾病进行预测建模时,则应优先考虑ANN算法。

总而言之,在选取建模算法时需要针对特定的疾病预测建模问题,综合考虑所选算法在多分类能力、可解释性、泛化能力、时空复杂度、数据容错性等方面的情况,并结合现有的研究成果,考虑算法在运用已有研究成果这一问题上的兼容性,选取合适的算法,使所选取的算法能够发挥其在构建特定疾病模型时的性能优势。

(1)正确率(Accuracy),表示所有预测样本中估计正确的样本个数。

(2)错误率(ErrorRate),表示所有预测样本中估计错误的样本个数。

(3)准确率(Precision),表示所有判断为正的样本中实际样本为真的比例。

(4)召回率(Recall),表示所有实际为真的样本中被估计为真的比例。

(5)F1分数(F1Score),表示准确率和召回率的调和平均值。

(6)操作者操作特征曲线(ReceiverOperatingCharacteristic,ROC曲线)反映敏感性和特异性连续变量的综合指标,适用于二分类的情况,ROC曲线上的每个点反映着对同一信号刺激的感受性。横坐标是假正率(FalsePositiveRate),纵坐标是真正率(TruePositiveRate),又称作召回率。

(7)AUC值(AreaUnderCurve),定义为ROC曲线下的面积,适用于二分类的情况,表示当随机挑选一个正样本以及一个负样本,当前的分类算法根据计算得到的Score值将这个正样本排在负样本前面的概率就是AUC值。当然,AUC值越大,当前的分类算法越有可能将正样本排在负样本前面,即能够更好地分类。

在运用机器学习进行疾病预测建模过程中,通常的做法是将数据分为训练集和测试集。测试集是与训练独立的数据,完全不参与训练,用于最终模型的评估。在训练过程中,经常会出现过拟合的问题。如果此时就使用测试数据来调整模型参数,就相当于在训练时已知部分测试数据的信息会影响最终评估结果的准确性。通常的做法是在训练数据中再分出一部分作为验证(Validation)数据,用来评估模型的训练效果。

验证数据取自训练数据,但不参与训练,这样可以相对客观地评估模型对于训练集之外数据的匹配程度。模型在验证数据中的评估常用的是K倍交叉验证,又称循环验证。其将原始数据分成K组(K-Fold),将每个子集数据分别做一次验证集,其余的K-1组子集数据作为训练集,这样会得到K个模型。这K个模型分别在验证集中评估结果,最后的误差MSE(MeanSquaredError)加和平均就得到交叉验证误差。交叉验证有效利用了有限的数据,并且评估结果能够尽可能地接近模型在测试集上的表现,是肠道菌群数据建模中的主要验证手段。

过去的研究已证实,机器学习在解决肠道菌群分类识别的问题上表现出了很好的性能,随着研究的深入,许多科研团队开始探索将机器学习用于构建基于肠道菌群数据的疾病预测模型,根据所采用算法的特点可将其大致分为两类:(1)基于传统机器学习算法的预测模型;(2)基于深度学习算法的预测模型。

在基于机器学习构建的预测模型的发展历程中,最早采用传统的机器学习算法进行模型构建,这些算法包括SVM、RF、KNN等。这类算法普遍的特点是简便易操作、处理速度快。

在大数据时代,将肠道菌群大数据转化为有价值的知识是肠道菌群研究中面临的重要挑战之一。深度学习是机器学习的分支,其特点是具有强大的学习能力和灵活性。近年来,深度学习得到了迅速发展,在各个领域都展现出了巨大的性能优势。

通过横向比较可得出以下分析结果:(1)基于DeepMicro构建的模型在性能上优于基于MetAML构建的模型。(2)基于DeepMicro构建的模型性能稳定性更高,预测性能基本维持在较高水平,而基于MetAML构建的模型性能稳定性较低,会因为数据集的不同而产生较大的变化。(3)存在个别数据集上(如ColorectalCancer)MetAML构建的模型性能优于DeepMicro构建的模型。

本文从肠道菌群数据分析的角度入手,主要针对基于肠道菌群数据构建疾病预测模型这一问题,梳理了肠道菌群研究的发展历程和重要里程碑;根据过往的研究工作,整理出肠道菌群数据分析中常用的7个基准数据集;总结出基于肠道菌群数据构建疾病预测模型的基本流程;重点阐述了近年来传统机器学习和深度学习在构建疾病预测模型中的典型应用。

近年来,图卷积神经网络取得了突破性的进展,其在处理图数据的分类和预测时展现出了强大的性能优势,目前在交通预测、人体行为识别、生物分类等领域均取得了诸多成果。在肠道菌群研究中,系统进化生成树的结构以及菌群之间的关联均可通过图结构进行表示,那么是否可以考虑将肠道菌群分析与图神经网络进行结合,利用图卷积特性分析肠道菌群数据,以此推动肠道菌群分析领域的研究和发展。

综上所述,在未来,机器学习和深度学习方法应该被视为分析肠道菌群的一个重要工具,我们应该积极探索这二者间恰当的结合点,借助计算机科学上的研究成果推动肠道菌群分析的发展,实现将肠道菌群的分析作为临床上诊断、治疗和预防疾病的有力工具。

THE END
1.转载机器学习算法综述(入门)转载-机器学习算法综述(入门) 学习了一个学期机器学习算法,从什么都不懂到对十个机器学习算法有一定的了解,下面总结一下十大机器学习算法,从算法的概念、原理、优点、缺点、应用等方面来总结,如果有错误的地方,欢迎指出。 目录 1.决策树 2.线性回归 3.逻辑回归https://blog.csdn.net/dy_zheng/article/details/101673765
2.17个机器学习的常用算法!腾讯云开发者社区17 个机器学习的常用算法! 1. 监督式学习: 在监督式学习下,输入数据被称为“训练数据”,每组训练数据有一个明确的标识或结果,如对防垃圾邮件系统中“垃圾邮件”“非垃圾邮件”,对手写数字识别中的“1“,”2“,”3“,”4“等。在建立预测模型的时候,监督式学习建立一个学习过程,将预测结果与“训练数据”的https://cloud.tencent.com/developer/article/1874962
3.科学网—[转载]进化集成学习算法综述[转载]进化集成学习算法综述 胡毅1, 瞿博阳2, 梁静1, 王杰1, 王艳丽1 1 郑州大学电气工程学院,河南 郑州 450001 2 中原工学院电子信息学院,河南 郑州 450007 【摘 要】进化集成学习结合了集成学习和进化算法两方面的优势,并在机器学习、数据挖掘和模式识别等领域被广泛应用。首先对进化集成学习算法的理论基础、https://wap.sciencenet.cn/blog-951291-1312816.html
4.机器学习算法的分布式实现研究综述.docxMapReduce以及Spark.它们实现了不同的并行编程模型:消息传递或者数据并行.本文首先介绍了分布式计算和机器学习的基本概念,并以逻辑回归为例说明了一般迭代算法的求解过程.然后分别介绍了各种分布式框架的体系设计,编程接口,以及迭代算发在其中实现的过程.最后比较了三种框架的异同,并未来展望了分布式框架在机器学习中的应用https://www.renrendoc.com/paper/227177230.html
5.可扩展机器学习的并行与分布式优化算法综述算法评价标准和并行计算模型对每种算法的具体优化策略进行对比分析.通过综述研究发现:各种优化算法大多是对传统机器学习的凸函数问题进行优化, 不同算法再根据自身特点对目标函数的不同特性进行优化, 对于非凸函数的优化求解研究较少; 在多核、分布式环境下, 基于不同并行计算模型对不同算法进行改进, 通过并行化来提高https://jos.org.cn/html/2018/1/5376.htm
6.近三年光谱结合化学计量学分析技术综述文献的评述(一)资讯中心3化学计量学算法与策略 3.1概述 Wang等从实用性的角度综述了近十年来在现代光谱分析中应用的各种化学计量学方法,包括光谱预处理、波长(变量)选择、数据降维、定量校正、模式识别、模型传递、模型维护和多光谱数据融合等[38]。Houhou等重点介绍了化学计量学、机器学习和深度学习等人工智能方法用于光谱和成像分析的最新研究https://www.instrument.com.cn/news/20221116/639999.shtml
7.聚类算法综述范文8篇(全文)聚类算法综述 第1篇 关键词:聚类分析,增量聚类,生物智能,数据流 聚类就是将数据点划分成组同时满足组内数据点之间的相似性尽可能大, 不同组的数据点之间的相似性尽可能小[1], 聚类在数据挖掘中起着非常重要的作用, 并广泛地应用于模式识别、计算机可视化、模糊控制等领域。 https://www.99xueshu.com/w/ikey8bb2k59r.html
8.人工智能算法综述人工智能算法综述昵称17040482 2015-10-09 1 目 录 摘要2 人工智能算法综述 通信工程专业 摘要:随着人工智能再当今科学技术中的飞速发展和应用,人工智能算法的开发学习及应用也随之越来越广泛,它介绍了当前存在的一些人工智能算法,阐述了其工作原理和特点并对其加以比较、评价,还对产生背景、应用领域加以说明,同时又对http://www.360doc.com/content/15/1009/10/17040482_504355165.shtml
9.如何实现机器学习算法·MachineLearningMastery博客文章翻译文献综述:在实施算法时,您正在进行研究。您被迫查找并阅读该算法的多个规范和正式描述。您还可能找到并编写代码审查算法的其他实现,以确认您的理解。您正在进行有针对性的研究,并学习如何阅读和实际使用研究出版物。 处理 您可以通过一个过程来加速您从头开始学习和实施机器学习算法的能力。您实施的算法越多,您获得的https://www.kancloud.cn/apachecn/ml-mastery-zh/1952239
10.可解释性机器学习综述可解释性最强的算法可解释性 机器学习 综述 可解释性最强的算法 模型可解释性汇总 简介 目前很多机器学习模型可以做出非常好的预测,但是它们并不能很好地解释他们是如何进行预测的,很多数据科学家都很难知晓为什么该算法会得到这样的预测结果。这是非常致命的,因为如果我们无法知道某个算法是如何进行预测,那么我们将很难将其前一道其它的https://blog.51cto.com/u_16213629/7824612
11.一文看懂机器学习「3种学习方法+7个实操步骤+15种常见算法」机器学习研究和构建的是一种特殊算法(而非某一个特定的算法),能够让计算机自己在数据中学习从而进行预测。 所以,机器学习不是某种具体的算法,而是很多算法的统称。 机器学习包含了很多种不同的算法,深度学习就是其中之一,其他方法包括决策树,聚类,贝叶斯等。 https://easyai.tech/ai-definition/machine-learning/
12.多名专家学者来我校作学术报告4月15日,应我校理学院邀请,北京应用物理与计算数学研究所信号与数据处理技术研究联合实验室主任尹俊平研究员来我校讲学,在东九A-528学术报告厅为我校师生作了题为《数据科学算法综述及其典型应用》的学术报告,并就学科专业及学科建设等方面进行交流。 报告中,尹俊平以大数据时代为背景,介绍了统计分析、统计学习以及机https://news.swust.edu.cn/2019/0417/c295a106006/page.htm
13.可信机器学习的公平性综述.pdf自主智能无人系统科学中心可信人工智能研究所上海通讯作者王祥丰金博王晓玲摘要人工智能在与人类生活息息相关的场景中自主决策时正逐渐面临法律或伦理的问题或风险可信机器学习是建立安全人工智能系统的核心技术是人工智能领域的热门研究方向而公平性是可信机器学习的重要考量公平性旨在研究机器学习算法决策对个人或群体不存在因https://max.book118.com/html/2021/0315/8140025010003061.shtm
14.GitHub机器学习的数学基础 CS229线性代数与概率论基础 机器学习基础 快速入门 推荐顺序由前到后 机器学习算法地图 机器学习 吴恩达 Coursera个人笔记 && 视频(含官方笔记) CS229 课程讲义中文翻译 && 机器学习 吴恩达 cs229个人笔记 && 官网(笔记) && 视频(中文字幕) 百页机器学习 深入理解 推荐顺序由前到后 《统计https://github.com/jiying61306/DeepLearning