News|十大算法_在线学习

感谢所有专家秉持专业和公正的态度参与本年度十大系列工作的推荐和评选，祝各位老师在新的一年取得更多优秀成果！同时，感谢我所BIGD冯昶瑞同学在本次活动资料整理和图片设计工作中所付出的努力！

发展创新助生信、众志成城战疫情。金鼠之年伊始，GPB祝愿大家平安健康，让我们在各自的岗位上做好自己的工作，为国民健康和国家发展贡献力量。Beabetterme,beabetteryou,forabetterus。中国加油！

GPB

2020年2月17日

利用单分子测序构建高质量基因组的算法—HERA

高质量基因组序列对于研究一个物种基因组的结构、功能、进化、基因定位和克隆等都至关重要。复杂基因组中存在大量的重复序列，无法用现有的基因组组装方法获得,严重影响了参考基因组的质量及其应用。中国科学院遗传与发育生物学研究所梁承志团队开发了利用单分子长片段测序，对基因组复杂重复序列区域进行高效组装的算法HERA。测试发现，HERA能够准确组装水稻中包括复杂的长串联重复序列在内的绝大部分重复序列。与相应物种已发表的基因组版本比较表明，利用HERA组装的玉米和人基因组的contigN50分别从1.3Mb和8.3Mb提升至61.2Mb和54.4Mb；新组装的苦荞基因组contigN50达到了27.85Mb。新的玉米基因组组装版本在玉米B73参考基因组中填补了大量以前没有组装出的序列，对多处染色体上序列位置或方向的错误进行了校正，并增补了一些以前遗漏的多个重要基因序列。利用HERA改进后的苦荞全基因组8条染色体仅由20个contig组成，其中一条染色体仅包含一个contig。本工作展示了利用现有常规技术条件构建几乎完整的基因组的潜力。

该成果发表于《自然通讯》期刊。

工具链接：

原文信息：

DuH,LiangC.Assemblyofchromosome-scalecontigsbyefficientlyresolvingrepetitivesequenceswithlongreads.NatCommun2019;10:5360.PMID:31767853.

原文链接：

图：HERA改进的玉米基因组与已发表的参考基因组B73RefGen_v4的比较。（a）全基因组中序列缺口由2523个减少到了76个；（b）玉米参考基因组中缺失或多余的序列（上）经HERA改进后（下）被正确地填补或移除。

人类和小鼠细胞标志物数据库—CellMarker

飞速发展的单细胞测序技术为探究复杂疾病开辟了新道路。单细胞研究面临的首要问题是如何确定组织细胞类型，然而，目前尚缺乏一个可供参考查询的综合细胞标志物数据库。哈尔滨医科大学李霞、肖云团队和哈尔滨医科大学附属第一医院赵婷婷通过查询逾10万篇已发表的文献，构建了人类和小鼠组织中各种细胞类型的标志物数据库—CellMarker。该数据库囊括了158种人类组织中467种细胞类型的13,605个细胞标志物，以及81种小鼠组织中389种细胞类型的9148个细胞标志物，涉及131种癌症细胞标志物。CellMarker数据库存储的细胞标志物对细胞身份的识别和刻画提供了重要分析依据，对从单细胞水平解析疾病发生及微环境影响提供了帮助。

该成果发表于《核酸研究》期刊。

数据库链接：

ZhangX,LanY,XuJ,QuanF,ZhaoE,DengC,etal.CellMarker:amanuallycuratedresourceofcellmarkersinhumanandmouse.NucleicAcidsRes2019;47:D721–8.PMID:30289549.

图：CellMarker数据库中人类和小鼠组织内细胞标志物概况。（左）人类组织中不同细胞类型的细胞标志物数量统计；（右）小鼠组织中不同细胞类型的细胞标志物数量统计。

基于进化基因组和功能基因组数据的灵长类特异新基因数据库—GenTree

灵长类特异蛋白编码基因可推动表型演化，但目前只有少量功能研究。原因之一是缺乏相对可靠的灵长类特异基因（primate-specificgenesorPSGs）数据集。由于基因年龄推断方法的差别以及新基因注释质量低等原因，已发表的PSG数据集间存在较大差别。中国科学院动物研究所张勇团队联合合作伙伴通过整合进化基因组和功能基因组数据开发了PSG数据库GenTree。GenTree可用来分析基因何时起源、如何起源及其功能。该工作进一步评估了常用的年龄推断方法及基因注释方法的优缺点后，鉴定了846个PSGs（含192个人特异的新基因），并发现PSG倾向于参与精子发生、免疫反应、母胎互作及胎脑发育等快速演化的生命过程。总而言之，该工作开发了一个专门的新基因数据库，产生了相对高质量的PSG列表并推测了其功能。年龄推断方法、基因注释方法的评估及新基因的功能特点对研究其它物种种系特异基因的工作具有普遍参考意义。

该成果发表于《基因组研究》期刊。

ShaoY,ChenC,ShenH,HeBZ,YuD,JiangS,etal.GenTree,anintegratedresourceforanalyzingtheevolutionandfunctionofprimate-specificcodinggenes.GenomeRes2019;29:682–96.PMID:30862647.

整合Hi-C和FISH重构三维基因组结构新方法—GEM-FISH

随着三维基因组构象捕获实验技术（3C）尤其是与通量测序相结合技术（Hi-C）的发展，解析三维基因组结构成为了研究基因调控的常用手段。精确的三维基因组结构重构对于研究基因调控等生物过程和功能具有非常重要的意义。目前，绝大多数三维基因组结构重构算法均只是基于Hi-C数据。清华大学曾坚阳研究团队将Hi-C和荧光原位杂交（FISH）数据整合起来，基于流形学习算法框架（GEM）提出了新的三维基因组结构建模方法—GEM-FISH。该方法采用一种分治策略，首先利用Hi-C和FISH数据构建拓扑关联结构域（TAD）之间的相对结构，再利用Hi-C数据构建TAD内部结构，最后将两者结合起来根据大分子能量性质优化微调，获得最终的结构。与现有方法相比，这一方法重构的基因组结构更为精确，平均相对误差更小，并且能够准确揭示出活跃状态和失活状态X染色体的差异。该方法被用来分析子结构分隔区在染色体三维空间的分布并得到了FISH实验数据的进一步验证。另外，该方法还可以用来分析超级增强子在染色体三维空间的分布，为基因调控研究提供更多的线索。

AbbasA,HeX,NiuJ,ZhouB,ZhuG,MaT,etal.IntegratingHi-CandFISHdataformodelingofthe3Dorganizationofchromosomes.NatCommun2019;10:2049.PMID:31053705.

图：GEM-FISH通过整合Hi-C和FISH数据采用分治策略建模过程概览。（上）利用Hi-C和FISH数据以及生物物理的先验知识构建TAD水平的三维染色体结构；（左下）利用Hi-C数据和生物物理的先验知识构建染色体TAD内部的三维结构；（右下）将染色体TAD水平的结构与TAD内部的结构相结合，进一步调整生成最终完整的三维染色体结构。

细胞动态行为推断算法助力肝细胞癌免疫微环境的解析

该成果发表于《细胞》期刊。

数据链接：

ZhangQ,HeY,LuoN,PatelSJ,HanY,GaoR,etal.Landscapeanddynamicsofsingleimmunecellsinhepatocellularcarcinoma.Cell2019;179:829–45.e20.PMID:31675496.

小鼠三胚层谱系时空转录组图谱—eGastrulation

细胞的空间位置信息以及细胞在组织中原位的状态具有十分重要的生物学价值。中国科学院生物化学与细胞生物学研究所景乃禾团队、中国科学院-马普学会计算生物学伙伴研究所/北京大学韩敬东团队和中国科学院广州生物医药与健康研究院/广州再生医学与健康广东省实验室彭广敦团队合作利用空间转录组测序技术，从时空动态的四维角度来研究小鼠早期胚胎原肠运动期间的细胞谱系，构建了胚胎着床后从多能干细胞退出到外、中、内三胚层建立的谱系发生关系树，在国际上首次获得了具有极高分辨率和完整度的时空体内细胞发育和命运图谱，全景式地展现了干细胞命运决定的分子表达谱。该研究建立了全基因组的时空表达数据库eGastrulation，供领域内研究者查询超过2万个基因的三维空间表达模式，分析共表达关系，并可实现单细胞的空间定位（zipcodemapping），以及基于特征表达模式的基因模式分析。该数据库为目前国际上关于小鼠原肠运动时期最为全面和完整的交互性时空转录组数据库。

该成果发表于《自然》期刊。

PengG,SuoS,CuiG,YuF,WangR,ChenJ,etal.Moleculararchitectureoflineageallocationandtissueorganizationinearlymouseembryo.Nature2019;572:528–32.PMID:31391582.

图：原肠运动时空三维数据库（eGastrulation）的功能实现

现存和古人族群的全基因组单核苷酸变异数据库—PGG.SNV

该成果发表于《基因组生物学》期刊。

ZhangC,GaoY,NingZ,LuY,ZhangX,LiuJ,etal.PGG.SNV:understandingtheevolutionaryandmedicalimplicationsofhumansinglenucleotidevariationsindiversepopulations.GenomeBiol2019;20:215.PMID:31640808.

图：PGG.SNV基因组数据的人群和地理分布概览。（A）PGG.SNV数据库所覆盖人类族群的分布和基因组数量统计；（B）PGG.SNV与gnomAD等数据集在基因组数目上的比较；（C）PGG.SNV与gnomAD等数据集在族群数量上的比较。

利用人工智能算法分析单细胞ATAC-seq数据—SCALE

染色质开放区域是基因组编码生命信息的窗口，其中包含了各种各样重要的转录因子结合位点和其他类型的基因表达调控元件。单细胞ATAC-seq技术可以在单细胞水平上描绘染色质的开放图谱从而揭示细胞间在基因表达调控上的差异。然而，对于每一种真核细胞，其所有可能的染色质开放位点数目通常有几十万之多，这造成所谓的“维度灾难”；同时由于生物和技术的原因，许多潜在的开放区域没有信号、数据异常稀疏。因此，目前尚缺乏有效的方法来分析挖掘海量的单细胞ATAC-seq数据中宝贵的生物学信息。清华大学张强锋团队通过深度学习的方法，结合高斯混合模型和变分自编码器，提取数据低维的隐层特征，对单细胞ATAC-seq数据进行聚类、可视化、缺失值填补、降噪以及下游生物信息挖掘，有效地解决了数据高维度稀疏性的问题。该方法为解码单细胞表观遗传学提供了一个综合高效强大的工具，将有望在肿瘤、免疫、发育等领域的研究中得到广泛应用。

XiongL,XuK,TianK,ShaoY,TangL,GaoG,etal.SCALEmethodforsingle-cellATAC-seqanalysisvialatentfeatureextraction.NatCommun2019;10:4576.PMID:31594952.

图:SCALE模型概览。SCALE采用一个编码器（encoder）和解码器（decoder）组成的变分自编码器（VAE）框架，输入是peak×cell矩阵表示的单细胞数据（rawdata），输出是提取的可以用于可视化（visualization）和聚类（clustering）的隐层特征z，以及消除了噪音并填补了缺失值的增强单细胞数据（enhanceddata）。SCALE编码器是一个四层的神经网络，解码器是一个隐层特征z和增强数据直连的单层神经网络，隐层特征在流形空间被μ_c和σ_c^参数化的高斯混合模型所约束。

中国人群全基因组测序研究及北方汉族参考基因组建立

该成果发表于《基因组蛋白质组与生物信息学报》期刊。

DuZ,MaL,QuH,ChenW,ZhangB,LuX,etal.WholegenomeanalysesofChinesepopulationanddenovoassemblyofaNorthernHangenome.GenomicsProteomicsBioinformatics2019;17:229–47.PMID:31494266.

图：MHTFR多态位点rs1801133的T等位基因（677T）全球范围在北纬35–45度之间存在一个高频区带。

人体肠道可培养细菌参考基因组数据集及活体菌株库—CGR

高质量的参考基因组和活体菌株是深入研究疾病与肠道菌群相互作用机制的基础。为了完善并进一步扩充现有肠道菌株库和参考基因组数据集，深圳华大生命科学研究院肖亮、贾慧珏、李俊桦团队利用培养组学方法分离了超过6000株来自健康人体粪便样本的肠道细菌菌株，以其基因组数据为基础构建了1520株高质量的肠道细菌基因组数据集—CulturableGenomeReference（CGR），发现了338个物种分类群，其中超过三分之一是新的细菌物种。这项研究极大丰富了现有肠道微生物物种的多样性，将肠道微生物宏基因组分析、基因组SNP分析、功能分析和重要肠道菌的泛基因组分析提升到新维度，加深了人们对于人体肠道微生物的认知。这是首次通过大规模培养的技术手段获得如此多数量的活体菌株及相应的高质量细菌基因组数据。这一成果对于实现在菌株层面精准解析肠道微生物与疾病之间的关系具有重要的科研价值，也为微生物组的临床应用转化提供了宝贵的菌株资源支持。

该成果发表于《自然生物技术》期刊。

ZouY,XueW,LuoG,DengZ,QinP,GuoR,etal.1,520referencegenomesfromcultivatedhumangutbacteriaenablefunctionalmicrobiomeanalyses.NatBiotechnol2019;37:179–85.PMID:30718868.

图：肠道可培养细菌参考基因组（CGR）系统进化与功能分布概览。（左）基于CGR中1520株肠道细菌全基因组数据的系统进化树；（右上）CGR中1520株肠道细菌功能（基于KEGG数据库注释结果）分布图谱；（右下）CGR中38种代表性菌株泛基因组分析以及丁酸和抗生素抗性功能通路分布。

THE END

News

统治世界的十大算法——如果没有这些算法，当今互联网将

主宰世界的十大算法菜鸟教程

机器学习常用的十大算法人工智能

十大经典排序算法（动图演示）一像素

十大经典排序算法

News

关于20世纪10个最伟大的算法