破解'验菌识病'大难题,赵方庆团队NCS报道方法突破(附专访)热心肠日报

NatureComputationalScience[IF:N/A]

Large-scalemicrobiomedataintegrationenablesrobustbiomarkeridentification05-23,doi:10.1038/s43588-022-00247-8

赵方庆

赵方庆,中国科学院北京生命科学研究院研究员。先后获得中科院“百人计划”(2011)、基金委优秀青年基金(2017)、北京市杰出青年科学基金(2018)、国家杰出青年科学基金(2020)、中国科学院特聘研究员(2022)等资助。现任中科院北京生科院科研部副主任、技术平台部主任,中国生物信息学会基因组信息学专委会主任。主要致力于建立高效的算法模型和实验技术,探索人体微生物与非编码RNA的结构组成与变化规律,以期解析它们与人类健康和疾病的关系。近年来,在Cell、Gut、NatureBiotechnology、NatureComputationalScience、NatureCommunications等刊物上发表通讯作者论文50余篇,其中十余篇入选ESI高被引论文。先后4次荣获“中国科学院优秀导师奖”(2017,2018,2019,2021)以及“中国科学院大学领雁奖章”(2020)、“中国科学院朱李月华优秀教师奖”(2020)、“中国科学院大学必和必拓导师奖”(2021)。

随着测序技术的发展,我们产生的生物数据越来越多,但是如何有效地整合这些海量的数据并从中挖掘出有用的信息应用于临床的诊断一直是一个棘手的问题。肠道微生物的种类和丰度与基因表达阵列不同,它们更容易受到饮食、地域等各种因素的影响,不同人群之间肠道菌群组成可能存在很大差异,直接基于菌群丰度整合数据并进行生物标记物挖掘必然会产生偏差。此外,微生物丰度矩阵过于稀疏,常规计算方法也很难基于此稀疏矩阵对不同批次的丰度进行校正。

与其他方法相比,NetMoss在大规模的菌群数据整合以及生物标志物挖掘方面,有哪些特点和优势?

NetMoss最大的优势就是,它在整合数据和进行生物标志物挖掘时,并不是直接基于物种丰度,而是基于生态互作网络来实现的。通常情况下,肠道中的微生物并不是独立存在发挥作用,它们往往需要彼此协同合作,共同完成某一生命活动。通过构建微生物互作网络,我们可以很好地保留每一个子数据集最原始的生物互作信息,通过进一步的整合,我们就可以基于更庞大的数据进行生物标记物的挖掘。在进行标记物的识别时,我们同样也是基于不同微生物网络的结构差异来进行的。当人体的健康状况发生改变时,微生物种类、丰度和彼此之间的互作关系都有可能发生改变。我们通过量化不同健康状态下微生物互作网络的结构差异,可以更精准、更快速地识别出对扰动敏感的关键微生物,从而将其应用于临床疾病的诊断和预测。

NetMoss有哪些应用前景?

作为一个非常复杂的生态系统,肠道菌群对于机体免疫代谢的调节机制至今还仍处于研究的初级阶段。但是可以肯定的是,我们肠道中的细菌在人体内并不是单独发挥作用的,它可能通过与不同细菌的竞争或合作改变肠道生态系统的结构,也可能通过一些代谢物的分泌影响下游的多种功能通路。总之,相同的细菌可能会在不同疾病的发生发展过程中扮演不同角色,虽然作用各不相同,但都同样重要。这些细菌在人体代谢网络中的位置或功能发生改变,影响的不是单一的某一个组织或器官,而是我们的整个生命系统,因为人体本身就是一个有机的整体,我们不能孤立地看待任何一种生命现象。

菌群研究已经进入深水区。越来越多的研究者开始从生态系统的视角,探索肠道菌群及其在健康和疾病中的作用。请问这方面目前的研究进展是怎样的?

可否请您再介绍一下参与这项研究的团队成员,以及后续的研究方向?

(作者专访内容结束,以下是日报的其他内容)

NatureMicrobiology[IF:17.745]

Identificationofsharedanddisease-specifichostgene–microbiomeassociationsacrosshumandiseasesusingmulti-omicintegration05-16,doi:10.1038/s41564-022-01121-z

【主编评语】肠道菌群和宿主基因调控都可参与胃肠道疾病的发生发展,但尚不清楚这二者如何互作以影响宿主疾病。NatureMicrobiology近期发表的一项研究,建立了一个用于整合多组学高维数据集的机器学习框架,并用该方法在三种肠道疾病中,鉴定了疾病间特有和共有的宿主基因-微生物组关联,为进一步研究菌群影响疾病的机理提供了新线索。(@mildbreeze)

NatureMethods[IF:28.547]

①hifiasm-meta是在hifiasm的基础上,针对PacBio的HiFi宏基因组数据开发的组装软件;②在模拟数据集中,hifiasm-meta比metaFlye拥有更好的菌株区分度,比HiCanu耗时更短,三者准确性相当;③在真实数据集中,hifiasm-meta比其他软件可组装出更多兆级别和环状contigs,显著提升了下游宏基因组Binning性能,可获得更多高质量MAGs;④hifiasm-meta能很好区分来自素食者和肉食者混装样本得到的MAGs,说明其更擅长区分微生物间细微组分差异。

Metagenomeassemblyofhigh-fidelitylongreadswithhifiasm-meta05-09,doi:10.1038/s41592-022-01478-3

Microbiome[IF:14.65]

①在单样本组装和多样本混拼两种常用的宏基因组组装方法基础上,开发了一种混合组装方法(Mix-assembly),核心是将前两种方法得到的基因聚类,获得混合非冗余基因集;②混装方法在非冗余基因、完整基因和可注释功能基因数量上均显著优于其它两种方法;③混装基因集中低丰度基因主要源自多样本混拼,而高丰度基因则源自单样本组装;④使用混装方法对波罗的海环境样本重新分析,将原始基因集扩大了10倍,极大地拓展了样本中可利用信息。

Evaluatingmetagenomicassemblyapproachesforbiome-specificgenecatalogues05-06,doi:10.1186/s40168-022-01259-2

NucleicAcidsResearch[IF:16.971]

①vRhyme是一种快速和准确的病毒MAG分箱工具,经reads覆盖度处理、序列特征提取、有监督机器学习、迭代网络聚类及bin评分五步实现精准分箱;②vRhyme能够对不同家族、宿主和源环境隶属关系、不同片段化基因组及各种长度的病毒进行分箱;③与现有工具相比,vRhyme在模拟和真实数据集中分箱速度快、准确较高、兼容性强及计算需求低;④在人类皮肤数据中,vRhyme能更全面地分析一组个体中的共享病毒和病毒特征,并更好地再现自然系统。

vRhymeenablesbinningofviralgenomesfrommetagenomes05-11,doi:10.1093/nar/gkac341

①MDMcleaner专用于评估和过滤宏基因组组装基因组(MAG)、单细菌组装基因组(SAG)和参考基因组中的污染序列;②对基因组污染的评估优于其它可用工具,表现为对污染序列敏感性更高,对高度碎片化的MAG和SAG的假阳性率更低;③在之前被标记为低污染的基因组中发现了大量污染序列,提示应重新考虑现有基因组质量评价标准;④能过滤掉公共数据集中半数MAGs/SAGs中的污染,但对平均基因组完整性没有明显影响。

Howclearisourcurrentviewonmicrobialdarkmatter(Re-)assessingpublicMAG&SAGdatasetswithMDMcleaner05-10,doi:10.1093/nar/gkac294

【主编评语】本研究,作者提出了一种新的工作流程,作为检测和清除污染的替代策略,它可以意识到潜在的参考数据库污染,从而最大限度地减少错误传播的危险。作者为这个工作流提供了一个免费开放访问的python程序,名为“MDMcleaner”,一个重叠群分类和细化工具,并在模拟和真实数据集上对其进行了测试和比较。MDMcleaner揭示了当前筛选方法忽略的大量污染,并在新基因组和基础参考数据库中灵敏地检测出了错误分配的重叠群从而大大改善了我们对“微生物暗物质”的看法。(@刘永鑫-中科院-宏基因组)

NatureCommunications[IF:14.919]

①LookingGlass是一种“生命通用语言”深度学习模型,能直接对宏基因组中的reads进行高效地功能预测、注释和特定的酶挖掘;②LookingGlass能够捕获被传统方法遗漏序列的功能特征和序列之间的进化关系;③LookingGlass能准确识别短读长DNA序列中的编码区,实现高效地氨基酸翻译,还能对酶的最佳温度进行预测;④使用LookingGlass从全球海洋宏基因组数据中挖掘出大量未知的氧化还原酶,发现氧化还原酶丰度随纬度和深度分布的新趋势;

Deeplearningofabacterialandarchaealuniversallanguageoflifeenablestransferlearningandilluminatesmicrobialdarkmatter05-11,doi:10.1038/s41467-022-30070-8

①目前估计未培养的属和门分别占地球菌群的81%和25%,纯微生物培养物可用于研究微生物特性和生成参考基因组数据;②宏基因组组装基因组和单细胞基因组为鉴定和分离微生物/功能提供机会;③宏基因组数据指导的微生物分离策略包括培养基优化、抗生素抗性基因应用、稳定同位素探测引导的拉曼激活微生物细胞分选、反向基因组学和基因靶向分离;④制约这些策略的因素包括基因组序列不能确定培养某种微生物的所有必要条件,DNA提取方法等。

Opportunitiesandchallengesofusingmetagenomicdatatobringunculturedmicrobesintocultivation05-12,doi:10.1186/s40168-022-01272-5

Nature[IF:49.962]

Dietarydifferencescanconfoundanimalstudies05-23,doi:10.1038/d41586-022-01393-9

感谢本期日报的创作者:mildbreeze,一只赵崽儿呀,九卿臣,青城昊,往、昔℡,周梦情

THE END
1.数据挖掘功能有哪些?一、数据挖掘功能 1. 数据分类 数据分类为数据挖掘中常见的功能之一,顾名思义即是将分析对象依不同的属性分类加以定义,建立不同的类组。数据挖掘中的分类是指针对未发生的结果进行预测分类,主要包括归纳和推论两步骤,其主要目的在于提高分类的准确度,建立分类规则,再评估准则的优劣。常用“判定树”算法。 2. 数据https://localsite.baidu.com/article-detail.html?articleId=20186193&ucid=n1DvP1c3nHf&categoryLv1=%E6%95%99%E8%82%B2%E5%9F%B9%E8%AE%AD&ch=54&srcid=10005
2.数据挖掘的主要方法和技术数据挖掘的主要方法和技术包括数据清洗、数据预处理、数据可视化、数据分析、数据模型构建、数据评估和优化等。这些方法和技术可以帮助我们更好地理解数据,发现关键信息,并提高数据挖掘的效果。 在本文中,我们将详细介绍数据挖掘的主要方法和技术,包括数据清洗、数据预处理、数据可视化、数据分析、数据模型构建、数据评估和https://blog.csdn.net/universsky2015/article/details/137334966
3.数据挖掘有什么作用与意义帆软数字化转型知识库数据挖掘的作用与意义在于能够帮助企业和组织:发现隐藏模式、提高决策质量、预测未来趋势、优化资源配置、提升客户满意度、推动创新。其中,发现隐藏模式尤为重要,因为数据挖掘能从海量数据中提取出有价值的信息和知识,这些信息可能是传统分析方法难以发现的。通过算法和技术手段,企业可以识别出一些潜在的、影响业务发展的关键https://www.fanruan.com/blog/article/575539/
4.一次完整的数据挖掘的过程sklearn的拆分方法 fromsklearn.model_selectionimporttrain_test_split train_set,test_set=train_test_split(housing,test_size=0.2,random_state=42) 分层采样 直接随机采样有什么弊端? ?当你的数据集足够大时,一般来说随机采样都是可行的.但是如果数据量不够大,那么随机采样则可能有样本严重偏斜的风险. https://www.jianshu.com/p/2e97f2bd75f8
5.数据挖掘论文2.EineSet是由SGI公司开发的,它也提供了多种数据挖掘方法,包括关联分析和分类以及高级统计和可视化工具。特色是它具有的强大的图形工具,包括规则可视化工具、树可视化工具、地图可视化工具和多维数据分散可视化工具,它们用于实现数据和数据挖掘结果的可视化。 3.Clementine是由ISL公司开发的,它为终端用户和开发者提供提供了https://www.unjs.com/lunwen/f/20220924130749_5650839.html
6.数据仓库和数据挖掘12篇(全文)(一) 数据挖掘的功能特征 (1) 自动预测趋势和行为:数据挖掘摒弃了以往的采用大量手工方式分析问题的路线, 能够自动的从大型的数据库中找到预测性信息。迅速而直接的根据数据本身, 得出结论。 (2) 关联分析:数据关联是数据库中一类存在的可被发现的重要知识。假若两个或多个变量的取值之间存在某种规律性, 就可以称https://www.99xueshu.com/w/ikeyy9nb2adc.html
7.数据挖掘有哪些功能导读随着大数据发展越来越好,数据挖掘成为了未来发展的一大趋势,数据挖掘和分析技术在各行业发挥着重要作用,小编为大家整理了数据挖掘的具体功能介绍,一起来看看吧。 数据挖掘有哪些功能: 数据挖掘通过预测未来趋势及行为,做出前摄的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,主要有以下五https://www.baijiao.org/school/zhengzhouxinyingdajiaoyu/news/14499.html
8.大数据挖掘方法有哪些?都有哪些方面的应用?数据挖掘使分析师可以更好地理解数据,而预测分析则使分析师可以根据可视化分析和数据挖掘的结果做出一些预测性判断。 方法4.semantic engine(语义引擎) 由于非结构化数据的多样性给数据分析带来了新挑战,因此需要一系列工具来解析,提取和分析数据。需要将语义引擎设计成从“文档”中智能地提取信息。 https://cloud.tencent.com/developer/article/1645776
9.数据挖掘)(功能选择MicrosoftLearnSQL Server数据挖掘提供多种方法来计算这些分数,任何模型中应用的确切方法取决于以下因素:在模型中使用的算法 属性的数据类型 可对模型设置的任何参数 功能选择应用于输入、可预测属性或列中的状态。 在用于功能选择的分数完整时,只有算法选择的属性和状态才会包含在模型生成过程中并可用于预测。 即使您选择的可预测https://msdn.microsoft.com/zh-cn/library/ms175382.aspx
10.单细胞分析的相关数据库教程数据挖掘功能 按数据集进行挖掘,可视化,可以选择自己感兴趣的数据集,物种等,获取基本信息 我们来看一个黑色素瘤的单细测序结果: 进行可视化查看分析结果,比如tSNE的聚类结果: marker基因的表达热图: 还可以看实验设计的基本信息: 关于单细胞测序的一些分析方法,作为补充信息: 还可以自己去下载这些数据进行分析,挖掘:分http://m.yunbios.net/Database-on-single-cell-analysis.html
11.11.2.空间决策支持系统—GIS原理在线教程所谓“维”,就是观察问题的角度,决策分析需要从不同角度观察分析数据, 即SDSS 能为决策者提供多侧面、全方位的信息。 数据挖掘功能则帮助决策者一步步深入地进行数据分析,从而找出事物的内在规律,为决策服务。 近年来,快速发展的OLAP技术和基于数据仓库的数据挖掘技术对实现这一功能奠定了基础。 https://www.osgeo.cn/gis-tutorial/system-support.html
12.电子病历系统应用水平分级评价管理办法(试行)及评价标准(试行1.评价项目:根据《电子病历系统功能规范(试行)》、《电子病历应用管理规范(试行)》等规范性文件,确定了医疗工作流程中的10个角色,39个评价项目(附后)。 2.局部应用情况评价方法:就39个评价项目分别对电子病历系统功能、有效应用、数据质量三个方面进行评分,将三个得分相乘,得到此评价项目的综合评分。即:单个项目综http://www.xbyygl.com/nd.jsp?id=354