人类基因组的序列通常包括DNA重复区域的缺口。如今,最先进技术的结合使研究人员能够生成第一个完整的人类基因组序列。
为了纪念Sanger测序40周年,2017年AnandJagatia与国家人类基因组研究所所长EricGreen就DNA测序在生物医学研究中的影响和潜力进行了交谈。今天就让我们跟着Nature出版社的里程碑系列专题,一览千禧年之后,测序领域的里程碑进展。
2000年:解析果蝇基因组序列[1]
2000年发布了果蝇(Drosophilamelanogaster)的第一个完整基因组序列。率先选择果蝇进行测序的原因在于,果蝇作为常用模式生物的重要性,以及先前已经建立的可以用于“散弹枪”测序短序列组装参考的高质量序列。随着全基因组测序的进展,现在可用于三种主要的真核模式生物(1996年的酿酒酵母和1998年的秀丽隐杆线虫)。以此为基础,比较基因组学开始应用于真核生物研究。
[1]ThegenomesequenceofDrosophilamelanogaster
2000年:解析拟南芥基因组序列[2]
拟南芥是第一个被全基因组测序的植物,也是继秀丽隐杆线虫和黑腹果蝇之后,第三个被测序的多细胞生物。这一重要成果让我们能够探索开花植物独特的生理和组织特征背后的基因调控网络。
[2]AnalysisofthegenomesequenceofthefloweringplantArabidopsisthaliana
2001年:绘制完成人类基因组草图[3]
1990年启动的人类基因组计划(HumanGenomeProject,HGP)致力于确定人类基因组的所有DNA碱基序列,以获得人类的“基因蓝图”。2001年,两篇重要论文报道了通过鸟枪测序法获得的人类基因组序列初稿,为基因组时代奠定了基础。该项目的第二阶段,从基因组草图转向基本完成的参考基因组,并最终于2003年完成。
观看华盛顿大学基因组科学教授、人类基因组计划的先驱之一RobertH.Waterston回顾这一具有里程碑意义的国际努力的承诺、陷阱和潜力。
[3]Video:Howawormshowedusthewaytoopenscience
2002年:完成小鼠基因组序列[4]
国际小鼠基因组测序联盟(TheInternationalMouseGenomeSequencingConsortium)利用C57BL/6J品系的雌性小鼠,生成了小鼠基因组参考序列的第一稿。最新版本的小鼠基因组参考序列(GRCm39)由基因组参考联盟于2020年7月发布,该联盟成立于2007年,旨在改进人类、小鼠和斑马鱼的参考基因组序列。
[4]Initialsequencingandcomparativeanalysisofthemousegenome
2002年:建立基因组浏览器[5]
测序产生的海量基因组数据需要新的方法来存储、可视化和整合序列数据及其注释。Ensembl和UCSC基因组浏览器等基因组浏览器的出现提供了一种访问和搜索多个物种基因组的新方法。
[5]Theclickablegenome
2004年:实现宏基因组测序[6]
两项关键的研究开启了宏基因组学时代。从测序数据重建微生物群落的方法,让我们可以使用测序技术直接从环境样本中进行无偏倚、不依赖于培养的DNA分析。
[6]Sequencingtheunculturablemajority
2005年:人单倍体基因组:HapMap[7]
国际HapMap项目致力于建立人类基因组的单倍型图谱(HapMap),该图谱可描述人类DNA序列变异的常见模式。作为1000个基因组计划等大型人类遗传学项目(后来被其取代)的基础,HapMap发现了数百万个单核苷酸多态性,并成为了许多疾病研究中全基因组关联分析的参考数据集。
[7]Ahaplotypemapofthehumangenomee
2005年:完成黑猩猩基因组测序[8]
非人类灵长类动物黑猩猩的DNA序列初稿的发表,为理解人类生物学和进化提供了一个信息宝库,让我们更接近于回答这个挥之不去的问题:是什么让我们成为人类?
[8]Initialsequenceofthechimpanzeegenomeandcomparisonwiththehumangenomel
2005年:完成水稻基因组测序[9]
作为世界上最重要的粮食作物之一,水稻养活了全球一半以上的人口。水稻的基因组大小几乎是拟南芥的四倍,也是最后一个通过Sanger测序克隆化基因组片段完成的基因组之一。这也是第一个包含两个完全测序的复杂着丝粒的基因组序列。
[9]Themap-basedsequenceofthericegenomel
2005年:下一代测试技术(NGS)[10]
[10]Sequencing—thenextgeneration
2007年:建立ChIP-seq技术[11]
ChIP-seq的发展将染色质免疫沉淀与高通量下一代测序相结合,能够在全基因组范围内研究不同蛋白质的染色质结合模式,从而让我们深入了解基因调控机制、发育和表观遗传学。
[11]ChIP–seqcapturesthechromatinlandscape
2008年:建立DNase-seq技术[12]
对核酸内切酶DNaseI的切割高度敏感的基因组区域,标志着具有活性功能元件,例如启动子和增强子。继2006年使用平铺微阵列和大规模并行测序对DNase超敏性进行初步测量之后,第一个基于下一代测序的全基因组DNase超敏性测量(DNase-seq)产生了对可接近染色质的全局视图,该染色质建立了远端增强子作为开放染色质的主要区域。
[12]High-resolutionmappingandcharacterizationofopenchromatinacrossthegenome
2008年:个人基因组时代的曙光[13]
两项研究分别使用基于可逆终止染料的新型大规模平行测序法报告了非洲个体和亚洲个体的基因组。这两项研究及其提出的技术,揭示了人类基因组序列的可行性和资源价值,为建立人群规模的个体基因组数据库铺平了道路。
[13]Thedawnofpersonalgenomes
2008年:癌症研究中的测序革命[14]
[14]Asequencingrevolutionincancer
2008年:基因组组装工具[15]
这一年涌现了大量专门为短读长测序设计的基因组组装工具,如Velvet、ALLPATHS和SOAPdenovo。它们可以经济高效地根据测序片段重建基因组,并可以高效地从头组装产生高质量的基因组序列。
[15]Sequenceassemblydemystified
2008年:转录组测序技术(RNA-seq)[16]
一系列具有里程碑意义的论文报道了在多个物种中建立的全转录组高通量测序技术,称为RNA测序(RNA-seq)。
[16]Sequencingthesecretsofcancergenome
2008年:产前基因组测序诊断[17]
1997年在母体血浆中发现了循环无细胞胎儿DNA,这一发现导致了针对各种性状的非侵入性产前基因检测的发展,但检测胎儿染色体非整倍体仍然具有挑战性。2008年,两项研究表明,通过对母体无细胞血浆DNA进行大规模平行测序,成功检测出最常见的常染色体非整倍体,为无创产前检测开辟了新机遇。
[17]Prenatalandpre-implantationgeneticdiagnosis
2009年:计算工具大爆发[18]
随着基因组测序变得更加实惠和广泛,其应用迅速扩大,推动了新计算工具的开发,以适应转录组学、宏基因组学或遗传变异发现的要求。Bowtie和BWA等读取映射工具或剪接感知对齐器TopHat能够将数百万个短读取与参考基因组对齐,而下游分析软件(例如SAMtools和BreakDancer)促进了遗传变异的检测。
[18]RepetitiveDNAandnext-generationsequencing:computationalchallengesandsolutions
2009年:长度长测序[19]
长读长测序技术开始填补现有人类基因组数据的空缺、揭示人类基因组的隐藏部分,并允许在天然DNA或RNA上检测修饰的碱基,以及揭示转录组的复杂性。
[19]Longreadsbecomeareality
2009年:外显子组测序[20]
靶向全外显子组测序:通过调整微阵列,在高通量测序之前从基因组DNA中进行外显子序列的靶向捕获,使研究人员能够在事先不知道致病基因的染色体位置或生物学作用的情况下识别引起疾病的突变。
[20]Exploringwholeexomes
2009年:基因组甲基化测序[21]
亚硫酸氢钠将未甲基化的胞嘧啶转化为尿嘧啶的发现推动了许多新的DNA甲基化检测和分析技术的发展。将亚硫酸氢盐处理与下一代测序相结合,全基因组亚硫酸氢盐测序能够以单碱基对分辨率全面表征全基因组DNA甲基化模式。
[21]Mappingthemethylome
(Principlesandchallengesofgenome-wideDNAmethylationanalysis)
2009年:核糖体分析技术[22]
[22]Genome-wideanalysisinvivooftranslationwithnucleotideresolutionusingribosomeprofiling
2009年:Hi-C技术解析染色质构象[23]
Hi-C的发展极大地帮助了对染色质构象的研究,使染色质接触的全基因组分析成为可能,并让研究者在3D空间中生成基因组图谱。
[23]ProbingnucleararchitecturewithHi-C
2011年:建立单细胞测序技术[24]
从批量组织或细胞的基因组分析转向进行单细胞测序,为基因调控、细胞间异质性和发育或疾病过程提供了全新的视角。在这种分辨率下进行分析的难度需要许多实验和计算创新。
[24]Sequencingonecellatatime
2012年:解析大熊猫基因组[25]
大熊猫(Ailuropodamelanoleuca)的基因组——特别是2008年北京奥运会吉祥物晶晶的基因组——是通过短测序读数组装而成的,这在如此庞大、复杂的基因组中尚属首次。大熊猫基因组由约24亿个碱基对组成,包含大约21,000个蛋白质编码基因,序列中反映的高度基因组多样性提高了人们对保护该物种免于灭绝的希望。
[25]Thesequenceanddenovoassemblyofthegiantpandagenome
2010年:测序新技术涌现[26]
随着最初的商业测序平台(基于454焦磷酸测序或Solexa测序)的发布,出现了许多替代测序技术,包括寡核苷酸连接和检测(SOLiD)系统测序,这是一种使用DNA纳米球进行克隆扩增的连接测序方法,以及启用非光学测序的离子半导体测序技术。
[26]Comingofage:tenyearsofnext-generationsequencingtechnologies
2010年:古生物测序[27]
2010年尼安德特人基因组初稿的发表标志着古基因组学领域的一个转折点,通过克服先前在古代DNA研究中的限制(例如有限的起始材料、污染),从下一代测序读数中组装古代基因组成为可能和退化。
[27]Wakingthedead:sequencingarchaichominingenomes
视频:测序如何改变考古学[28]
观看加州大学圣克鲁兹分校(UCSC)生态学和进化生物学教授、加州大学圣克鲁斯分校基因组学研究所副所长、霍华德休斯医学中心研究员BethShapiro讨论基因组测序对古代DNA领域的影响研究。
[28]Video:HowancientDNAsequencingchangedthegames
2012年:建立公共基因组图书馆[29]
1000个基因组计划(The1000GenomesProject)是首个立志于对人类遗传变异进行分类的大规模测序研究。随着测序技术的改进和成本的降低,ExAC和gnomAD等越来越大的数据集相继出现,为在人群中发现的变异提供了丰富的参考数据。
[29]Cataloguingapublicgenome
2012年:功能基因组ENCODE计划[30]
来自LaurenceZitvogel和GiorgioTrinchieri小组的两项开创性研究揭示了肠道微生物群可能通过免疫系统影响宿主对癌症治疗的反应,这项研究不仅表明肠道微生物对免疫系统的重要影响,也提示我们需要在治疗癌症的过程中监测和干预肠道微生物群。
[30]Ourmostelementalencyclopaedia
视频:ENCODE计划与人类基因组[31]
自从孟德尔开始培育豌豆植物以来,我们就一直在试图了解生物的基因组。人类基因组计划确定了人类基因组中包含的全部30亿个碱基组成的序列代码。自2003年以来,ENCODE项目一直在尝试解释该代码,找出它如何制造不同类型的细胞和不同的人——这是人类故事的最新篇章。
[31]Video:TheStoryofYou:ENCODEandthehumangenome
2013年:完成斑马鱼基因组测序[32]
斑马鱼基因组测序项目于2001年启动,并于2013年发布了由鸟枪法和最小平铺路径测序生成的高质量序列组装。与先前测序的脊椎动物相比,包含更多的蛋白质编码基因和最高的总体重复含量,基因组序列显示超过70%的人类基因具有至少一个斑马鱼直系同源物,强调了这种模式生物在生物医学研究中的潜力。
2013年:表观遗传组学测序[33]
一种整合的表观基因组分析方法,即ATAC-seq,不仅可以告诉我们染色质的可及性,还可以确定核小体定位和转录因子的结合以及它们的相互作用。ATAC-seq采用高活性Tn5转座酶将引物插入开放染色质区域,然后对标记和扩增的片段进行测序和分析,以产生多维表观基因组图谱。
[33]Tacklingtheepigenome:Transpositionofnativechromatinforfastandsensitiveepigenomicprofilingofopenchromatin,DNA-bindingproteinsandnucleosomeposition
2014年:泛基因组研究[34]
从微生物到植物,再到人类的各种物种的泛基因组研究表明,在重新测序的基因组中发现了大量的遗传变异。这一观察结果对我们依赖单一参考基因组来组装和分析基因组提出了质疑。
[34]Pan-genomes:movingbeyondthereference
视频:表观遗传组学[35]
当您体内几乎每个细胞都具有相同的基因组时,为什么心脏细胞与脑细胞不同?基因表达的调节建立了一层化学特征,即表观基因组,它确保细胞根据其角色以不同的方式使用它们的基因组,类似于管弦乐队如何以各种方式演奏一首音乐。2015年,NIHRoadmapEpigenomicsConsortium报告了对111个参考人类表观基因组的综合分析,包括组蛋白修饰模式、DNA可及性、DNA甲基化和RNA表达的概况,以系统地表征初级人体组织和细胞的表观基因组景观。这项工作展示了细胞的表观基因组是如何复杂且排列精美的——就像贝多芬的交响曲一样。
[35]Video:Epigenome:Thesymphonyinyourcells
2016年:短读长也可测长序列[36]
一种基于微流体的测序方法,生成称为链接读数的数据,大大增加了基因组的物理覆盖范围,同时减少了测序所需的输入DNA量。DNA的长片段被分成GEM(凝胶珠在乳液中),GEM特异性条形码用于标记扩增产物,然后进行短读长测序。来自相同长度DNA片段的序列可以通过它们的条形码进行计算链接,以重建单倍型解析的基因组序列,这也提供了对复杂DNA结构变异的解析能力。
[36]Shortreadsgolongrange:Haplotypinggermlineandcancergenomeswithhigh-throughputlinked-readsequencing
2017年:基因组组装的铂金时代[37]
2017年,Bickhart等人将Denovo基因组组装带入了铂金时代。产生了参考质量的家山羊基因组。这一新标准是通过长读长和短读长测序技术与光学和染色质相互作用图谱的协同组合来实现的。
[37]Genomesgoplatinum
2020年:填补端粒间的空缺[38]
2020年,人类染色体X染色体的第一个无间隙、端粒到端粒组装的发表。这一发现汇集了过去十年开发的测序技术和计算工具。
[38]Fillinginthegapstelomeretotelomere
2022年:首个完整人类基因组[39]
[39]Theroadtoaccurateandcompletehumangenomes
参考资料:
转自:BioMedAdv2023-04-22
不感兴趣
看过了
取消
人点赞
人收藏
打赏
我有话说
0/500
同步到新浪微博
您的申请提交成功
您已认证成功,可享专属会员优惠,买1年送3个月!开通会员,资料、课程、直播、报告等海量内容免费看!