News

感谢所有专家秉持专业和公正的态度参与本年度十大系列工作的推荐和评选,祝各位老师在新的一年取得更多优秀成果!同时,感谢我所BIGD冯昶瑞同学在本次活动资料整理和图片设计工作中所付出的努力!

发展创新助生信、众志成城战疫情。金鼠之年伊始,GPB祝愿大家平安健康,让我们在各自的岗位上做好自己的工作,为国民健康和国家发展贡献力量。Beabetterme,beabetteryou,forabetterus。中国加油!

GPB

2020年2月17日

利用单分子测序构建高质量基因组的算法—HERA

高质量基因组序列对于研究一个物种基因组的结构、功能、进化、基因定位和克隆等都至关重要。复杂基因组中存在大量的重复序列,无法用现有的基因组组装方法获得,严重影响了参考基因组的质量及其应用。中国科学院遗传与发育生物学研究所梁承志团队开发了利用单分子长片段测序,对基因组复杂重复序列区域进行高效组装的算法HERA。测试发现,HERA能够准确组装水稻中包括复杂的长串联重复序列在内的绝大部分重复序列。与相应物种已发表的基因组版本比较表明,利用HERA组装的玉米和人基因组的contigN50分别从1.3Mb和8.3Mb提升至61.2Mb和54.4Mb;新组装的苦荞基因组contigN50达到了27.85Mb。新的玉米基因组组装版本在玉米B73参考基因组中填补了大量以前没有组装出的序列,对多处染色体上序列位置或方向的错误进行了校正,并增补了一些以前遗漏的多个重要基因序列。利用HERA改进后的苦荞全基因组8条染色体仅由20个contig组成,其中一条染色体仅包含一个contig。本工作展示了利用现有常规技术条件构建几乎完整的基因组的潜力。

该成果发表于《自然通讯》期刊。

工具链接:

原文信息:

DuH,LiangC.Assemblyofchromosome-scalecontigsbyefficientlyresolvingrepetitivesequenceswithlongreads.NatCommun2019;10:5360.PMID:31767853.

原文链接:

图:HERA改进的玉米基因组与已发表的参考基因组B73RefGen_v4的比较。(a)全基因组中序列缺口由2523个减少到了76个;(b)玉米参考基因组中缺失或多余的序列(上)经HERA改进后(下)被正确地填补或移除。

人类和小鼠细胞标志物数据库—CellMarker

飞速发展的单细胞测序技术为探究复杂疾病开辟了新道路。单细胞研究面临的首要问题是如何确定组织细胞类型,然而,目前尚缺乏一个可供参考查询的综合细胞标志物数据库。哈尔滨医科大学李霞、肖云团队和哈尔滨医科大学附属第一医院赵婷婷通过查询逾10万篇已发表的文献,构建了人类和小鼠组织中各种细胞类型的标志物数据库—CellMarker。该数据库囊括了158种人类组织中467种细胞类型的13,605个细胞标志物,以及81种小鼠组织中389种细胞类型的9148个细胞标志物,涉及131种癌症细胞标志物。CellMarker数据库存储的细胞标志物对细胞身份的识别和刻画提供了重要分析依据,对从单细胞水平解析疾病发生及微环境影响提供了帮助。

该成果发表于《核酸研究》期刊。

数据库链接:

ZhangX,LanY,XuJ,QuanF,ZhaoE,DengC,etal.CellMarker:amanuallycuratedresourceofcellmarkersinhumanandmouse.NucleicAcidsRes2019;47:D721–8.PMID:30289549.

图:CellMarker数据库中人类和小鼠组织内细胞标志物概况。(左)人类组织中不同细胞类型的细胞标志物数量统计;(右)小鼠组织中不同细胞类型的细胞标志物数量统计。

基于进化基因组和功能基因组数据的灵长类特异新基因数据库—GenTree

灵长类特异蛋白编码基因可推动表型演化,但目前只有少量功能研究。原因之一是缺乏相对可靠的灵长类特异基因(primate-specificgenesorPSGs)数据集。由于基因年龄推断方法的差别以及新基因注释质量低等原因,已发表的PSG数据集间存在较大差别。中国科学院动物研究所张勇团队联合合作伙伴通过整合进化基因组和功能基因组数据开发了PSG数据库GenTree。GenTree可用来分析基因何时起源、如何起源及其功能。该工作进一步评估了常用的年龄推断方法及基因注释方法的优缺点后,鉴定了846个PSGs(含192个人特异的新基因),并发现PSG倾向于参与精子发生、免疫反应、母胎互作及胎脑发育等快速演化的生命过程。总而言之,该工作开发了一个专门的新基因数据库,产生了相对高质量的PSG列表并推测了其功能。年龄推断方法、基因注释方法的评估及新基因的功能特点对研究其它物种种系特异基因的工作具有普遍参考意义。

该成果发表于《基因组研究》期刊。

ShaoY,ChenC,ShenH,HeBZ,YuD,JiangS,etal.GenTree,anintegratedresourceforanalyzingtheevolutionandfunctionofprimate-specificcodinggenes.GenomeRes2019;29:682–96.PMID:30862647.

整合Hi-C和FISH重构三维基因组结构新方法—GEM-FISH

随着三维基因组构象捕获实验技术(3C)尤其是与通量测序相结合技术(Hi-C)的发展,解析三维基因组结构成为了研究基因调控的常用手段。精确的三维基因组结构重构对于研究基因调控等生物过程和功能具有非常重要的意义。目前,绝大多数三维基因组结构重构算法均只是基于Hi-C数据。清华大学曾坚阳研究团队将Hi-C和荧光原位杂交(FISH)数据整合起来,基于流形学习算法框架(GEM)提出了新的三维基因组结构建模方法—GEM-FISH。该方法采用一种分治策略,首先利用Hi-C和FISH数据构建拓扑关联结构域(TAD)之间的相对结构,再利用Hi-C数据构建TAD内部结构,最后将两者结合起来根据大分子能量性质优化微调,获得最终的结构。与现有方法相比,这一方法重构的基因组结构更为精确,平均相对误差更小,并且能够准确揭示出活跃状态和失活状态X染色体的差异。该方法被用来分析子结构分隔区在染色体三维空间的分布并得到了FISH实验数据的进一步验证。另外,该方法还可以用来分析超级增强子在染色体三维空间的分布,为基因调控研究提供更多的线索。

AbbasA,HeX,NiuJ,ZhouB,ZhuG,MaT,etal.IntegratingHi-CandFISHdataformodelingofthe3Dorganizationofchromosomes.NatCommun2019;10:2049.PMID:31053705.

图:GEM-FISH通过整合Hi-C和FISH数据采用分治策略建模过程概览。(上)利用Hi-C和FISH数据以及生物物理的先验知识构建TAD水平的三维染色体结构;(左下)利用Hi-C数据和生物物理的先验知识构建染色体TAD内部的三维结构;(右下)将染色体TAD水平的结构与TAD内部的结构相结合,进一步调整生成最终完整的三维染色体结构。

细胞动态行为推断算法助力肝细胞癌免疫微环境的解析

该成果发表于《细胞》期刊。

数据链接:

ZhangQ,HeY,LuoN,PatelSJ,HanY,GaoR,etal.Landscapeanddynamicsofsingleimmunecellsinhepatocellularcarcinoma.Cell2019;179:829–45.e20.PMID:31675496.

小鼠三胚层谱系时空转录组图谱—eGastrulation

细胞的空间位置信息以及细胞在组织中原位的状态具有十分重要的生物学价值。中国科学院生物化学与细胞生物学研究所景乃禾团队、中国科学院-马普学会计算生物学伙伴研究所/北京大学韩敬东团队和中国科学院广州生物医药与健康研究院/广州再生医学与健康广东省实验室彭广敦团队合作利用空间转录组测序技术,从时空动态的四维角度来研究小鼠早期胚胎原肠运动期间的细胞谱系,构建了胚胎着床后从多能干细胞退出到外、中、内三胚层建立的谱系发生关系树,在国际上首次获得了具有极高分辨率和完整度的时空体内细胞发育和命运图谱,全景式地展现了干细胞命运决定的分子表达谱。该研究建立了全基因组的时空表达数据库eGastrulation,供领域内研究者查询超过2万个基因的三维空间表达模式,分析共表达关系,并可实现单细胞的空间定位(zipcodemapping),以及基于特征表达模式的基因模式分析。该数据库为目前国际上关于小鼠原肠运动时期最为全面和完整的交互性时空转录组数据库。

该成果发表于《自然》期刊。

PengG,SuoS,CuiG,YuF,WangR,ChenJ,etal.Moleculararchitectureoflineageallocationandtissueorganizationinearlymouseembryo.Nature2019;572:528–32.PMID:31391582.

图:原肠运动时空三维数据库(eGastrulation)的功能实现

现存和古人族群的全基因组单核苷酸变异数据库—PGG.SNV

该成果发表于《基因组生物学》期刊。

ZhangC,GaoY,NingZ,LuY,ZhangX,LiuJ,etal.PGG.SNV:understandingtheevolutionaryandmedicalimplicationsofhumansinglenucleotidevariationsindiversepopulations.GenomeBiol2019;20:215.PMID:31640808.

图:PGG.SNV基因组数据的人群和地理分布概览。(A)PGG.SNV数据库所覆盖人类族群的分布和基因组数量统计;(B)PGG.SNV与gnomAD等数据集在基因组数目上的比较;(C)PGG.SNV与gnomAD等数据集在族群数量上的比较。

利用人工智能算法分析单细胞ATAC-seq数据—SCALE

染色质开放区域是基因组编码生命信息的窗口,其中包含了各种各样重要的转录因子结合位点和其他类型的基因表达调控元件。单细胞ATAC-seq技术可以在单细胞水平上描绘染色质的开放图谱从而揭示细胞间在基因表达调控上的差异。然而,对于每一种真核细胞,其所有可能的染色质开放位点数目通常有几十万之多,这造成所谓的“维度灾难”;同时由于生物和技术的原因,许多潜在的开放区域没有信号、数据异常稀疏。因此,目前尚缺乏有效的方法来分析挖掘海量的单细胞ATAC-seq数据中宝贵的生物学信息。清华大学张强锋团队通过深度学习的方法,结合高斯混合模型和变分自编码器,提取数据低维的隐层特征,对单细胞ATAC-seq数据进行聚类、可视化、缺失值填补、降噪以及下游生物信息挖掘,有效地解决了数据高维度稀疏性的问题。该方法为解码单细胞表观遗传学提供了一个综合高效强大的工具,将有望在肿瘤、免疫、发育等领域的研究中得到广泛应用。

XiongL,XuK,TianK,ShaoY,TangL,GaoG,etal.SCALEmethodforsingle-cellATAC-seqanalysisvialatentfeatureextraction.NatCommun2019;10:4576.PMID:31594952.

图:SCALE模型概览。SCALE采用一个编码器(encoder)和解码器(decoder)组成的变分自编码器(VAE)框架,输入是peak×cell矩阵表示的单细胞数据(rawdata),输出是提取的可以用于可视化(visualization)和聚类(clustering)的隐层特征z,以及消除了噪音并填补了缺失值的增强单细胞数据(enhanceddata)。SCALE编码器是一个四层的神经网络,解码器是一个隐层特征z和增强数据直连的单层神经网络,隐层特征在流形空间被μ_c和σ_c^参数化的高斯混合模型所约束。

中国人群全基因组测序研究及北方汉族参考基因组建立

该成果发表于《基因组蛋白质组与生物信息学报》期刊。

DuZ,MaL,QuH,ChenW,ZhangB,LuX,etal.WholegenomeanalysesofChinesepopulationanddenovoassemblyofaNorthernHangenome.GenomicsProteomicsBioinformatics2019;17:229–47.PMID:31494266.

图:MHTFR多态位点rs1801133的T等位基因(677T)全球范围在北纬35–45度之间存在一个高频区带。

人体肠道可培养细菌参考基因组数据集及活体菌株库—CGR

高质量的参考基因组和活体菌株是深入研究疾病与肠道菌群相互作用机制的基础。为了完善并进一步扩充现有肠道菌株库和参考基因组数据集,深圳华大生命科学研究院肖亮、贾慧珏、李俊桦团队利用培养组学方法分离了超过6000株来自健康人体粪便样本的肠道细菌菌株,以其基因组数据为基础构建了1520株高质量的肠道细菌基因组数据集—CulturableGenomeReference(CGR),发现了338个物种分类群,其中超过三分之一是新的细菌物种。这项研究极大丰富了现有肠道微生物物种的多样性,将肠道微生物宏基因组分析、基因组SNP分析、功能分析和重要肠道菌的泛基因组分析提升到新维度,加深了人们对于人体肠道微生物的认知。这是首次通过大规模培养的技术手段获得如此多数量的活体菌株及相应的高质量细菌基因组数据。这一成果对于实现在菌株层面精准解析肠道微生物与疾病之间的关系具有重要的科研价值,也为微生物组的临床应用转化提供了宝贵的菌株资源支持。

该成果发表于《自然生物技术》期刊。

ZouY,XueW,LuoG,DengZ,QinP,GuoR,etal.1,520referencegenomesfromcultivatedhumangutbacteriaenablefunctionalmicrobiomeanalyses.NatBiotechnol2019;37:179–85.PMID:30718868.

图:肠道可培养细菌参考基因组(CGR)系统进化与功能分布概览。(左)基于CGR中1520株肠道细菌全基因组数据的系统进化树;(右上)CGR中1520株肠道细菌功能(基于KEGG数据库注释结果)分布图谱;(右下)CGR中38种代表性菌株泛基因组分析以及丁酸和抗生素抗性功能通路分布。

THE END
1.「干货」编程语言十大经典算法,你知道几个?算法与数据结构是计算机学习路上的内功心法,也是学好编程语言的重要基础。今天给大家介绍一下十大经典算法。 十大经典算法分别是:冒泡排序,插入排序,选择排序,希尔排序,快速排序,归并排序,桶排序,堆排序,计数排序,基数排序。 预备知识:算法稳定性 如果a==b,排序前 a 在 b 的前面,排序后 a 在 b 的后面,只要会https://zhuanlan.zhihu.com/p/400262733
2.数据挖掘十大经典算法walt算法不仅仅是选中的十大算法,其实参加评选的18种算法,实际上随便拿出一种来都可以称得上是经典算法,它们在数据挖掘领域都产生了极为深远的影响。 1.C4.5 C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进: https://blog.csdn.net/xiaoshunzi111/article/details/49786649
3.细数二十世纪最伟大的10大算法(Top10)腾讯云开发者社区发明十大算法的其中几位算法大师 一、1946 蒙特卡洛方法 [1946: John von Neumann, Stan Ulam, and Nick Metropolis, all at the Los Alamos Scientific Laboratory, cook up the Metropolis algorithm, also known as the Monte Carlo method.] 蒙特卡洛方法的应用场景很多,横跨物理、金融、计算机。拿计算机科学来举https://cloud.tencent.com/developer/article/1170545
4.计算机十大经典算法.pdf【计算机】十大经典算法.pdf 47页内容提供方:iris 大小:1.26 MB 字数:约4.44万字 发布时间:2018-05-24发布于四川 浏览人气:805 下载次数:仅上传者可见 收藏次数:1 需要金币:*** 金币 (10金币=人民币1元)【计算机】十大经典算法.pdf 关闭预览 想预览更多内容,点击免费在线预览全文 免费在线预览https://max.book118.com/html/2018/0522/168046795.shtm
5.20世纪十大算法,除了“快排”你还会啥?文章整理出在20世纪对科学和工程领域的发展产生最大影响力的十大算法。当然,任何选择都是充满争议的,因为实在是没有最好的算法。 所以只好用编年顺序,依次列出了这十项算法领域人类智慧的巅峰之作——给出了一份没有排名的算法排行榜。 1946 蒙特·卡洛方法 https://m.sohu.com/a/727611060_121288514
6.轻松看懂机器学习十大常用算法西南石油大学轻松看懂机器学习十大常用算法 通过本篇文章大家可以对ML的常用算法形成常识性的认识。没有代码,没有复杂的理论推导,仅是图解,介绍这些算法是什么以及如何应用(例子主要是分类问题)。以后有机会再对单个算法做深入地解析。 一、决策树 二、随机森林算法 三、逻辑回归https://www.swpu.edu.cn/eelab/info/1090/2296.htm
7.Java超详细讲解十大排序算法面试无忧java这篇文章主要介绍了Java常用的排序算法及代码实现,在Java开发中,对排序的应用需要熟练的掌握,这样才能够确保Java学习时候能够有扎实的基础能力。那Java有哪些排序算法呢?本文小编就来详细说说Java常见的排序算法,需要的朋友可以参考一下+ 目录 排序算法的稳定性: 假定在待排序的记录序列中,存在多个具有相同的关键字的https://www.jb51.net/article/243720.htm
8.中国科普博览显然,不同领域、不同时代的人,对什么是“十大算法”自然会有不同看法和不同的选择,不可能统一,也没有必要统一。应该说,受时间、经验、领域和参选人数等诸多限制,入选的十大算法,不一定个个都是最优秀的;受条件和个数所限,没有入选的有些算法,也不能说是不好的;有些算法在不同选法中出现,也是自然的;每类http://www.kepu.net.cn/blog/zhangjianzhong/201903/t20190327_475674.html
9.杭州互联网法院:数据和算法十大典型案例通过本判决,首次确立了公共数据使用的基本原则,厘清了公共数据合法使用的边界,并从确保数据来源合法、数据安全、数据质量等方面,约束数据使用行为,以促进大数据分析企业通过改进算法技术、规范数据处理规则等,实现良性有序发展。本案获得最高人民法院2021年度全国优秀案例分析二等奖,被评为2020年中国十大最具研究价值知识http://lylsfy.sdcourt.gov.cn/lylsfy/393876/tszs5176/8935261/index.html
10.十大排序算法的复杂度排序方式稳定性总结十大排序算法的复杂度、排序方式、稳定性 原理简述 1.冒泡排序 1)比较相邻的元素,如果前一个比后一个大,就交换它们。 2)对每一对相邻元素做同样的工作,从开始第一对到结尾的最后一对。这样一轮比较结束,最大的数被移动到了最后的位置。 3)针对所有的元素重复以上的步骤,除了最后一个。 https://www.jianshu.com/p/00dff6f39917
11.数据挖掘领域十大经典算法数据挖掘领域十大经典算法 下面是参与评比的18种算法,实际上随便拿出一种来都可以称得上是经典算法,它们在数据挖掘领域都产生了极为深远的影响。在我们学习数据挖掘时,可以以这18种算法为主线,如果能把每一种算法都弄懂,整个数据挖掘领域就掌握得差不多了。另外,也可以用这18种算法的熟悉程度来判断自己知识的掌握程度https://www.cda.cn/view/744.html
12.程序员必会的十大算法算法是所有程序员必备的基本功,不会算法的程序员都容易被耻笑,今天就为大家盘点出所有程序员都需要掌握的十大算法,可以依次进行学习 一.Floyd Warshall算法 Floyd-Warshall算法,中文称弗洛伊德算法或佛洛伊德算法,是解决任意两点间的最短路径的一种算法,可以正确处理有向图或负权(但不可存在负权回路)的最短路径https://baijiahao.baidu.com/s?id=1742496629268867635&wfr=spider&for=pc
13.二十世纪的10大算法伟大的算法是计算的诗篇。对20世纪的科学发展和工程实践产生巨大影响的10大算法是: 1. 1946年计算蒙特卡洛过程的伦敦算法。对那些过于复杂给不出精确解的问题,该算法可使蒙特卡洛过程有效地给出问题的解。 2. 1947年线性规划的单纯形算法。这一优美算法解决了规划和决策过程中的共同问题。 https://worldscience.cn/qk/2000/5y/sjkx/623945.shtml