GEO数据挖掘流程——代码版(方便抄袭)

step0-install_packagesstep1-download_data1.背景知识2.关于GEO中的几个文件说明A.2种familyfile(s)B.SeriesMatrixFile(s)C.GSE64634_RAW.tar3.关于下载镜像问题4.关于探针id转换idmap1包——针对bioconductor包附加小功能——对基因名字进行注释(`annoGene`)idmap2包——万能芯片探针ID注释平台包(提取soft文件)idmap3包——idmap1和idmap2都无法注释的平台AnnoProbe包5.整体代码这里抄step2-checkstep3-DEGstep4-anno-go-kegg真正代码detailedplot综合显示图(更推荐)step5-anno-GSEAstep6-anno-GSVAstep7-visualization致谢

简单安装R包和设置镜像代码:

而且我发现,最近NCBI更新后,GEO数据库也更新了!

点击后:

可以看到官网的代码和我们目前用的代码基本一致。

下面一个个的来说吧!

也就是SOFTformattedfamilyfile(s)和MINiMLformattedfamilyfile(s),通过字面,我们可以理解这是2种不同格式的探针说明文件。为什么我会这样说呢?因为我下载了soft文件来查看:

这时首行的内容:

就是告诉你这个数据是GPL570这个平台测序得到的:

中间有很多行关于GSM的,可能记录的是用到这个平台测序的sample:

接着就是一系列探针信息了:

我们可以通过在R种提取信息对我们得到的矩阵种探针做注释。

这里面包含了3部分资料:数据属性+患者信息+表达矩阵

数据属性在最前面的几行,和患者信息之间有一个空行,但是他们都是以“!”开头:

接下来是患者信息:

紧接着患者信息下一行会有个提示:!series_matrix_table_begin,然后下面就是表达矩阵信息了:

这个就是我们需要的表达矩阵信息了,矩阵中每一行是一个基因(也就是一个探针),每一列是一个样本(GSM)

根据常识猜了猜想:

X和Y应该代表着芯片上的位置,这个可能和探针有对应关系。

MEAN是信号的平均值,STDV是信号的标准差。

NPIXELS是像素点吧。

既然知道了这是原始数据,jimmy又给发了代码,感觉不学习下有点对不起自己,那就跟着代码过一遍吧:

可以看到,整个过程非常的简单,就是利用了oligo这个R包而已。读入所有的cel文件后,利用rma()函数将数据进行了normalization,得到的是一个ExpressionSet对象!!

后面会比较我们利用rawdata得到的结果和我们直接下载的SeriesMatrixFile(s)文件之间的区别!

通过学习,发现实际上jimmy是开发了一个R包,或者说包装了一个函数吧,如果不想了解具体原理,那么用法如下:

具体用法也非常简单:

所以可以猜到,应该是jimmy事先用循环的方式帮我们下载好了很多GEO数据,并做成了Rdata格式的文件!非常的良苦用心了!!

因为GEO数据矩阵中,横坐标都是探针的代号,如下图:

我们只看这些代号并不能理解具体是什么基因,于是这就需要我们做id转换了:将探针的代号转为基因symbol。

这里又要提到jimmy“开发”的一个R包了:

老规矩,还是先学习下:

(具体的R包名称是bioc_package后加“.db”)

因为很多时候,用户是找不到这些GPL平台对应的R包,或者下载安装困难,其实仅仅是需要探针与基因对应关系,没有必要去下载安装这几十个M的包。于是jimmy就开发了idmap1这个R包来帮我们:

安装方法(这里好像只能用方法1,因为在载入包的同时附带有一个变量p2s_df加载,如果用方法2和3没办法得到这个变量):

关于我们得到的ExpressionSet对象,可以通过gset@annotation得到我们需要的注释平台信息。

前面说到了这个变量p2s_df,像我这么喜欢资源的人,当然也要保存一份在本地了。大家有兴趣的可以自己write到本地保存。哈哈哈哈哈哈哈哈哈哈(jimmy应该不会打我吧)!

同样的,还是idmap1这个R包里的函数,如果安装过这个R包就无须再安装了,如果没有安装又想用这个功能,还真的没有办法,因为这些数据存在于这个包的自带变量中(humanGTF、mouseGTF、ratGTF):

R语言parse函数与eval函数的字符串转命令行及执行操作:

parse()函数能将字符串转换为表达式expression;eval()函数能对表达式求解

这次是根据[soft文件](#####A.2种familyfile(s))进行提取信息得到的!

如果是我自己来处理这样的文件,我应该会分2步:

结果证明这样有错误,但是,具体原因有空再去找吧。下面看正确的读入方法——借助GEOqueryR包工具:

一般来说,大家关心的其实就是探针的ID,以及基因的symbol列。有了这个变量后,就可以按照R语言基本操作来提取我们需要的信息了。

注意:我检查了得到的结果,里面存在有的探针ID对应2个基因,如下图:

虽然不知道这些代表着什么意思,但是,我将这个数据和bioconductor包里的hgu133plus2.db数据做了比较,结果是这样的:自己提取的结果中如果是一个ID对应2个基因,那么这个探针在bioconductor包里基本上找不到数据。而其他一个ID对应2个基因的结果均和bioconductor包一致。

当然了,我这只是单独来看一个平台的探针,而在idmap2jimmy已经帮我们整理好了,直接用就行了!!

安装方法:

(比较慢)

查看支持的平台:

如果我们拿到的soft注释文件中是序列信息,那么我们该怎么做呢?

应该是先将序列比对到参考基因组上,然后通过提取基因注释文件中的数据得到基因symbol!

而在idmap3包中,jimmy已经帮我们做好了!!说他宠粉也是真的了!!我都懒得做,他居然还写了个循环来完成了这个事。

使用方法:

heatmap_top1000_sd.png

cor_top500_mad.png

MA.png

heatmap_top200_DEG.png

GO系列结果过于冗余:

npc_VS_normal_dotplot_gene_diff_BP.png

npc_VS_normal_dotplot_gene_diff_CC.png

npc_VS_normal_dotplot_gene_diff_MF.png

npc_VS_normal_dotplot_gene_down_BP.png

npc_VS_normal_dotplot_gene_down_CC

npc_VS_normal_dotplot_gene_down_MF.png

npc_VS_normal_dotplot_gene_up_BP.png

npc_VS_normal_dotplot_gene_up_CC.png

npc_VS_normal_dotplot_gene_up_MF.png

gene_down_GO_all_barplot.png

gene_up_GO_all_barplot.png

因为用到的这个样本用GSVA没有得到显著性结果,所以没有图出来,具体也没有深究,有需要日后再仔细研究吧

气泡图:

Gene-ConceptNetwork图:每一个小蓝圈表示一个基因,其颜色表示FC值,每个KEGGterm圈的大小由里面包含基因的数目决定。

成环:更炫酷了,但是感觉图形展示不方便

不成环:信息展示更有力吧

EnrichmentMap图:这里和上面的图类似,只不过不再显示具体的基因,而是直接画出每个term和term之间的关系,每个圆圈代表着一个term,圆圈大小代表着有多少个基因,颜色表示p值。

如果term和term之间有共同的基因,那么就会连接起来,聚在一起。

Heatmap-likefunctionalclassification:

和我们常规的热图不太像,这里纵轴是每个KEGG通路,横轴是涉及到的基因。颜色表示FC值。

上面所有的代码都来自生信技能树曾老板jimmy的帮助,同时我在测试运行的过程中又进行了部分改进和增补。

就用曾老板亲自编辑的感谢词来感谢吧:

FatYangthankDr.JianmingZeng(UniversityofMacau),andallthemembersofhisbioinformaticsteam,biotrainee,forgenerouslysharingtheirexperienceandcodes!

THE END
1.数据挖掘概念(AnalysisServices该步骤包括分析业务需求,定义问题的范围,定义计算模型所使用的度量,以及定义数据挖掘项目的特定目标。这些任务转换为下列问题: 您在查找什么?您要尝试找到什么类型的关系? 您要尝试解决的问题是否反映了业务策略或流程? 您要通过数据挖掘模型进行预测,还是仅仅查找受关注的模式和关联? https://technet.microsoft.com/zh-cn/library/ms174949(en-us,sql.105).aspx
2.大数据金融第二章大数据相关技术第一节 大数据处理流程 首先是利用多种轻型数据库收集海量数据,对不同来源的数据进行预处理后,整合存储到大型数据库中,然后根据企业或个人目的和需求,运用合适的数据挖掘技术提取有益的知识,最后利用恰当的方式将结果展现给终端用户。 数据处理流程 一 数据采集 https://www.jianshu.com/p/d68251554c66
3.数据分析报告范文(通用13篇)⑤假设数据模型。 ⑥ 实际数据挖掘工作(data mining)。 ⑦ 测试和验证挖掘结果(testing and verfication)。 ⑧ 解释和应用(interpretation and use)。 由上述步骤可看出,数据挖掘牵涉了大量的准备工作与规划工作,事实上许多专家都认为整套数据挖掘的过程中,有80%的时间和精力是花费在数据预处理阶段,其中包括数据的净化https://www.unjs.com/fanwenku/260833.html
4.数据分析有哪些方法论逻辑树5W2H分析法是的,没错,算是一个指导思想,在数据分析这一行,不存在一个绝对的方法论,你用同样的方法去分析不同的行业,那绝对是死路一条。 数据分析的流程六个步骤 在介绍数据分析有哪些方法论和思路之前,我们还是先不厌其烦地看一下数据分析的流程六个步骤: https://www.fanruan.com/bw/xttsjd
5.数据资产价值挖掘的主要方法和技术信息技术信息技术数据资产具有以下几个显著特征: (1)数量大:随着信息技术的发展,企业可以从各种内外部渠道获取海量数据。 (2)类型多:数据资产包含结构化和非结构化等多种类型,不同类型数据的处理方式差异较大。 (3)价值高:通过挖掘数据资产,可以助力企业优化业务流程、提升决策水平,创造巨大的经济效益。 https://www.zgcsswdx.cn/info/10361.html
6.信息系统项目管理师重点内容汇总(第八天)使用结构化分析 (Structured Analysis,SA) 方法进行需求分析,其建立的模型的核心是数据字典。围绕这个核心,有三个层次的模型,分别是数据模型、功能模型和行为模型(也称头状态模型)。在实际工作中,一般使用实体关系图 (E-R 图)表示数据模型,用数据流图 (DatFlow Diagram,DFD) 表示功能模型,用状态转换图 (State Trahttps://developer.aliyun.com/article/1416724
7.数据分析流程包括哪些步骤综上所述,数据分析流程包括了问题定义、数据采集、数据探索和可视化、数据预处理和特征工程、建立模型和算法选择、模型评估和优化、模型应用和结果解释等七个步骤。 数据分析过程中需要使用的分析方法 在数据分析过程中,需要使用多种分析方法和技术,以从数据中提取有用的信息和洞察。下面介绍几种常见的数据分析方法和技https://www.linkflowtech.com/news/1597
8.商战数据挖掘:你需要了解的数据科学与分析思维数据科学的一条重要原则是,数据挖掘的流程可以分解为几个通俗易懂的环节。有些环节涉及信息技术的应用,如数据中模式的自动发现和评估,而有些则主要依赖数据分析师的创意、常识和商业知识。理解数据挖掘的整个过程,有助于组织数据挖掘项目,使它们更接近系统性的分析,而不是凭借运气和个人智慧的冒险行为。 https://www.ituring.com.cn/book/tupubarticle/28952
9.北京化工大学人工智能导论期末复习笔记人工智能学科是进来计算机科学领域热门学科,人工智能导论作为一门导论性课程,对我们对机器学习、人工智能、数据挖掘的概念了解还是十分有好处的。 虽然平时这门课没上几节,最后考试也不难,遂把期末复习的笔记整理发布出来,一方面可能有以后的学弟学妹可能有帮助,二来也是做一个小小的记录。 https://www.ihewro.com/archives/798/
10.数据挖掘标准流程数据挖掘6个基本流程数据挖掘标准流程 数据挖掘6个基本流程 1.数据挖掘的过程分成 6 个步骤。 1.商业理解: 从商业的角度理解项目需求,再对数据挖掘的目标进行定义。 2.数据理解: 收集部分数据,对数据进行数据描述、数据质量验证等。有利于对收集的数据有个初步的认知。 3.数据准备:https://blog.51cto.com/u_16213634/6993714
11.信息化系统建设方案(通用14篇)6、网络管线及其他 光纤、网线、辅料。 (二)软件 1、本地局域网设备控制软件平台:每个场馆布设xx套(本地上行带宽xxMbps以上)。 2、全国联网监管软件平台xx套。 六、监管系统建设实施流程 (一)场馆勘察 1、图纸勘察 场馆方向施工单位提供布设区域的相关图纸资料。 https://www.ruiwen.com/jianshefangan/6093204.html
12.AI中台——智能聊天机器人平台的架构与应用AI&大模型王东总结起来就是:可复用化、服务统一化、对接数据中台、流程角色优化、运行监控化和资源管控化,最终让 AI 中台成为一个强大的 AI 能力支持中心,根据业务需求快速提供火力支援,迅速完成商业价值。 1.5 AI 中台平台架构 下面介绍 AI 中台的平台架构。 最下面是数据中台,提供数据处理、数据分析、数据管理、数据安全、数据服https://www.infoq.cn/article/5_2QekZHvBj88q859P2U
13.医德医风个人总结(精选21篇)(一)医德档案信息化平台的建立彻底改变了以往使用传统纸质档案建档的繁琐流程,管理者和员工根据系统的提示可以简单、方便地完成整个考评过程。电子化医德档案顺应了无纸化办公的时展趋势,减少了资源浪费,提高了工作效率,节约了人力成本。管理者可以在短时间内调阅了解医院医德医风建设动态,并可基于系统进行数据挖掘分析,https://www.fwsir.com/Article/html/Article_20230207133021_2349886.html
14.企业的管理理念通过构建ERP系统,充分实现了整个企业内部财务信息对生产、运营、计划、管理等工作的数据化、自动化及精确化统计,帮助企业内部信息数据得到优化的同时,极大提升了现有工作效率。(2)MES系统从内部控制的角度,帮助企业内部的生产运营实现了更为精准和高效的管理。其主要被广泛的应用于该企业的现代管理内部流程当中,从而为https://www.jy135.com/guanli/2322078.html
15.2024年7个海外群发邮件软件及邮件营销平台推荐(网站地址+最高15%其中,Marketing是核心,提供SEO、社交媒体、网页制作及优化、网站评分等工具产品;CRM实现数据可视化,并自动追踪客户行为;Sales作为联系销售人员与客户的工具。 营销步骤 HubSpot首创集客营销(Inbound Marketing),这一新的营销模式,将邮件、社交媒体、网站设计集成于一体,而且操作简单。流程分为四步。 第一步,引流:通过https://www.extrabux.cn/chs/guide/5889172
16.数据分析的3大阶段6大步骤数据分类分析的三个步骤这篇文章是我读《成为数据分析师:6步练就数据思维》之后,进行的一篇梳理、回顾的文章。我将对这本书中我认为重要的知识点与大家分享,感兴趣的小伙伴可以找这本书看看。 一、这是一本什么样的书? (1)书本概述 这是一本科普性质的文章,让我们能更好的理解数据分析的每一个过程与步骤,其中包含的大量例子能够帮https://blog.csdn.net/u013480893/article/details/90195725
17.充分利用RPA实施的6个步骤数据分析与数据挖掘充分利用RPA实施的6个步骤 在过去的几年中,围绕 机器人过程自动化进行了大量宣传。如果您认为Gartner在https://bbs.pinggu.org/thread-9371695-1-1.html
18.从设计角度深挖需求用户调研的方法论万字总结人的需求可以通过用户研究方法来得出,而用户研究方法常用的方法主要有:沉浸式、观察法、数据挖掘、焦点小组、访谈法、问卷法和数据分析法这几种。 卡片信息(Card Sorting):观察用户是如何理解内容和组织信息,用来帮助你的产品更合理的组织信息。 情景访谈(Contextual Interviews):走进用户的现实环境了解用户的工作方式,生https://new.qq.com/omn/20210622/20210622A06RD500.html
19.数据挖掘的步骤包括什么数据挖掘是一个通过特定算法对大量数据进行处理和分析,以发现数据中的模式、趋势或关联性的过程。下面详细介绍数据挖掘的步骤包括什么? 1、数据收集 首先,需要收集与待挖掘主题相关的数据。可能涉及从各种来源(如数据库、文件、网络等)获取数据,并将其清洗、整合到一个统一的格式中。 https://www.pxwy.cn/news-id-81213.html