1、基因注释与功能分类引言随着后基因组(post-genomics)时代的来临,基因组学的研究重心开始从阐明所有遗传信息转移到在整体分子水平对功能进行研究。这种转变的一个重要标志是产生了功能基因组学(functionalgenomics)。功能基因组学的主要任务之一是进行基因组功能注释(genomeannotation),了解基因的功能,认识基因与疾病的关系,掌握基因的产物及其在生命活动中的作用等。快速有效的基因注释对进一步识别基因,研究基因的表达调控机制,研究基因在生物体代谢途径中的地位,分析基因、基因产物之间的相互作用关系,预测和发现蛋白质功能,揭示生命的起源和进化等具有重要的意义。Si
2、ngle(SNP/Gene/Tf/miRNA)multi-(SNP/Gene/Tf/miRNA)system病前期早期中期晚期终末期Cancerinformationflow:TwolinesLifeline:Mechanismline:功能模块代谢通路互作网络Analysisways:+ways当我要知道某基因的功能的时候怎么办?(不同物种)(它功能异常会导致什么疾病?)当我要知道某些基因集合的功能的时候怎么办?当我要知道某些基因或蛋白的关系及其关系代表的功能的时候怎么办?当我要知道某些疾病中那些基因发生了异常怎么办?当我要知道这些疾病有那些药物可以治疗怎么办?
4、995年5月,日本的教育、科学、体育和文化部携手建立了KEGG数据库。经过了18年的发展,数据库的规模不断的扩大,其应用价值也得到了世界范围内的认可。KEGG是系统地分析基因功能、链接基因组信息和功能信息的数据库。数据库的维护人员不定期的根据最近出版的一些学术论文和生物学实验得到的数据对该数据库进行更新,来保证数据库的信息与最近的科研成果同步。特点KEGG是一个整合了基因组、化学和系统功能信息的数据库。把从已经完整测序的基因组中得到的基因目录与更高级别的细胞、物种和生态系统水平的系统功能关联起来是KEGG数据库的特色之一。人工创建的一个知识库,这个知识库是基于使用一种可计算的形式捕捉和组织
5、实验得到的知识而形成的系统功能知识库。它是一个生物系统的计算机模拟。与其他数据库相比,KEGG的一个显著特点就是具有强大的图形功能,它利用图形而不是繁缛的文字来介绍众多的代谢途径以及各途径之间的关系,这样可以使研究者能够对其所要研究的代谢途径有一个直观全面的了解。内容各个数据库中包含了大量的有用信息。基因组信息存储在GENES数据库里,包括完整和部分测序的基因组序列;更高级的功能信息存储在PATHWAY数据库里,包括图解的细胞生化过程如代谢、膜转运、信号传递、细胞周期,还包括同系保守的子通路等信息;KEGG还包含了LIGAND数据库,包含关于化学物质、酶分子、酶反应等信息。通过与世界上其它一
6、些大型生物信息学数据库的连接,KEGG可以为研究者提供更为丰富的生物学信息(LinkDB)。KEGG提供了Java的图形工具来访问基因组图谱,比较基因组图谱和操作表达图谱,以及其它序列比较、图形比较和通路计算的工具,可以免费获取。KEGG目前共包含了18个子数据库,它们被分类成系统信息、基因组信息和化学信息三个类别。可以通过不同的颜色进行区分KEGG存储内容分类数据库目录颜色系统信息KEGGPATHWAYKEGG通路图KEGGBRITEBRITE功能层次KEGGMODULEKEGG功能单元的模块KEGGDISEASE人类疾病KEGGDRUG药物KEGGENVIRON天然药物和与
8、n,(org)hsa04930KEGGBRITEFunctionalhierarchybr,jp,ko,(org)ko01003KEGGMODULEKEGGmoduleM,(org)_MM00010KEGGDISEASEHumandiseaseHH00004KEGGDRUGDrugDD01441KEGGENVIRONCrudedrug,etc.EE00048KEGGORTHOLOGYKOgroupKK04527KEGGGENOMEKEGGorganismTT01001(hsa)KEGGGENESGene/proteinhsa:3643KEGGCOM
11、大部分处方药品。KEGGDISEASE是一个存储疾病基因、通路、药物、以及疾病诊断标记等信息的新型数据库。KEGGPATHWAYDatabaseKEGGPATHWAY数据库是一个手工画的代谢通路的集合,包含以下几方面的分子间相互作用和反应网络:1.新陈代谢2.遗传信息加工3.环境信息加工4.细胞过程5.生物体系统6.人类疾病7.药物开发PATHWAY的五种类型仅仅第一种参考通路(referencepathway)图是手动画出来的,其他的通路图都是通过计算产生的。pathway中的每一个框(或线)都对应一个或多个K编号、EC编号及R编号。map-Referencepathway
14、me=rn&mapno=00010&mapscale=1.0&show_description=show葡萄糖代谢通路Hexokinase己糖激酶KEGGORTHOLOGY(KO)DatabaseKEGG参考通路图,BRITE功能层次以及KEGG模块都是以一种广泛的方式来表示,都可以用于所有物种。而KEGG直系同源系统(KOSystem)是这一表示方式的基础。包含手动定义的直系同源组,这些直系同源组就相当于KEGG通路中的点,BRITE层级中的点以及KEGG模块中的点。(这些点并不是某个具体物种的某一个基因,而是在许多物种中都存在的直系同源的某一个基因)。一旦基因被分配了KO标识或K
15、编号,通过基因组注释流程,物种特异性的通路图、BRITE功能层次和KEGG模块就可以自动产生了。直系同源与旁系同源直系同源(orthology)是比较基因组学中最重要的定义。直系同源的定义是:(1).在进化上起源于一个始祖基因并垂直传递的同源基因;(2).分布于两种或两种以上物种的基因组;(3).功能高度保守乃至于近乎相同,甚至于其在近缘物种可以相互替换;(4).结构相似;(5).组织特异性与亚细胞分布相似。旁系同源(paralogy)基因是指同一基因组(或同系物种的基因组)中,由于始祖基因的加倍而横向产生的几个同源基因。直系与旁系的共性是同源,都源于各自的始祖基因。其区别在于:在
16、进化起源上,直系同源是强调在不同基因组中的垂直传递,旁系同源则是在同一基因组中的横向加倍;在功能上,直系同源要求功能高度相似,而旁系同源在定义上对功能上没有严格要求,可能相似,但也可能并不相似(尽管结构上具一定程度的相似),甚至于没有功能(如基因家族中的假基因)。ImagedepictsconceptsofOrthologyandparalogy.ProteinKinaseCOrthologs行与物种对应,3个字母都是相应物中的英文单词缩写,比如has表示Homosapiens,mcc表示Macacamulatta;列就表示相应的Ortholog分类,比如K00844就
18、结构、序列信息等等。所以从Orthologtable中可以很容易地知道一张代谢通路上有哪些KO分类(酶类),并且这些酶类的成员在各物种中分配存在的情况以及特定的名称。KO编号表示一个基因,是ko通路中的基本单位,某一K编号代表的不是某一具体物种的基因,而是所有物种的某一同源基因的统称。KO编号也包括通路,每个通路都有KO编号丙酸代谢KOHSAMUSKEGGBRITEDatabaseKEGGBRITE是一个层级分类的数据库,包含生物系统各个方面的知识。相对于KEGGPATHWAY仅限于分子间相互作用和反应,KEGGBRITE包含了许多不同的关系类型。例如,可以查询酶和底物之间的关
20、ome.jp/kegg/pathway/hsa/hsa04630.html1.Metabolism2.GeneticInformationProcessing3.EnvironmentalInformationProcessing4.CellularProcesses5.OrganismalSystems6.HumanDiseases6.1Cancers6.2ImmuneSystemDiseases6.3NeurodegenerativeDiseases6.4CardiovascularDiseases6.5MetabolicD
21、iseases6.6InfectiousDiseases心血管疾病(CardiovascularDiseases)肥厚性心肌病(HCM)Arrhythmogenicrightventricularcardiomyopathy(ARVC)Dilatedcardiomyopathy(DCM)Viralmyocarditis糖尿病(TypeIIdiabetesmellitus)结肠直肠癌(Colorectalcancer)KEGG通路中的疾病基因信息?1.Metabolism2.GeneticInformationProcessing3.Envi