IF=6.68HCC肝癌单细胞数据挖掘实践

单细胞转录组测序技术的普及,为生命科学的研究提供了全新的手段。基于高通量单细胞转录组测序,既能发现特定组织中可能的细胞类型,也能了解不同细胞组成上的差别,更能通过基因表达图谱剖析不同细胞的基因特征,为理解细胞的功能提供数据支持。

同时,我们生信博士提供高效快捷的筛选marker基因的脚本供大家学习使用。

作者选取了10个肝癌病人共21个样本,取样类型包括:primarytumor(T)、portalveintumorthrombus(P)、metastaticlymphnode(L)、non-tumorliver(N);通过单细胞测序共得到28,687non-tumorlivercells和4,414primarytumorcells。通过Umap聚类分析得到28个clusters。

2.数据整理

单细胞的表达矩阵数据格式如下图所示,我们需要整理不同细胞的metadata数据:每个细胞属于哪个病人,以及属于什么类型的组织等等。有了metadata数据我们才能将细胞分类然后再进行后续的分析。

通过观察单细胞的表达矩阵数据(即上图第一行信息),我们可以把第一行信息提取出来,并整理成以下metadata格式数据。整理过程可以用以下shell代码快速实现。

3.利用脚本快速的进行单细胞数据分析

3.1数据读入与质控

细胞过滤参数:

表达基因数量过滤,500-8000;UMI数量大于500,线粒体基因比例小于30%。具体可以按照以下代码运行:

Rscriptscripts/seurat_sc_qc.r-iGSE149614_HCC.scRNAseq.S71915.count.txt.gz\--metadatametadata.tsv\--projectHCC-phcc--sep"\t"\-o01.read.hcc\--nGene.min500--nGene.max8000--percent_mito30--nUMI.min500数据过滤后结果如下图所示:

3.2单细胞聚类分析

单细胞聚类分析的关键参数如上图所示:聚类分析用到的PCA主成分前50轴,高变基因2000个,resolution分辨率0.1。其中分辨率越高聚类数量越多,为避免聚类结果太多,作者选用0.1的分辨率。以下为运行代码:

###2单细胞聚类分析Rscriptscripts/seurat_sc.r--resolution0.1--pt.size0.2\--rds01.read.hcc/hcc.afterQC.rds-o02.cluster-phcc--high.variable.genes2000--dim50#2.1查找marker基因Rscriptscripts/seurat_FindAllMarkers.r-i02.cluster/hcc.rds\-o02.cluster/-phcc.allMarker#2.2不同组织细胞dim图Rscriptscripts/seurat_DimPlot.r-i02.cluster/hcc.rds\--reductionumap--group.byTissueTypeAbbr--pt.size0.1-o02.cluster\-pTissueType.umap#不同类型细胞dim图Rscriptscripts/seurat_DimPlot.r-i02.cluster/hcc.rds\--reductionumap--group.byHCC--pt.size0.1-o02.cluster\-pisHCC.umap#肿瘤和正常样本分开绘制Rscriptscripts/seurat_DimPlot.r-i02.cluster/hcc.rds\--reductionumap--group.byseurat_clusters--split.byHCC--pt.size0.1-o02.cluster\-pHCC.split.umap-W15聚类分析结果展示:

3.3拟时序分析筛选出几团肿瘤样本特有的细胞亚群做拟时序分析,通过观察肿瘤样本和正常组织样本分开的散点图,进一步对比筛选其中的cluser2、17、10、19来进行后续的拟时序分析。

筛选过程可以通过以下代码实现:

#4.1筛选肿瘤样本特有的细胞亚群###筛选方法1:Rscriptscripts/subset_seurat_obj.r-i02.cluster/hcc.rds\--idents2171019\-o04.trajectory-phcc.tumorSub#查看筛选后的结果Rscriptscripts/seurat_DimPlot.r-i04.trajectory/hcc.tumorSub.rds\--reductionumap--group.byseurat_clusters--split.byHCC\--pt.size0.1-o02.cluster\-o04.trajectory-pHCC.sub.split.umap-W15--label筛选到的细胞单独聚类分析之后发现,这些亚群明显不出现在normal组中:

接下来就可以可利用monocle2做拟时序分析,具体代码如下所示:

参考文献:

LiC,ChenJ,LiY,WuB,YeZ,TianX,WeiY,HaoZ,PanY,ZhouH,YangK,FuZ,XuJ,LuY.6-PhosphogluconolactonasePromotesHepatocellularCarcinogenesisbyActivatingPentosePhosphatePathway.FrontCellDevBiol.2021Oct26;9:753196.doi:10.3389/fcell.2021.753196.PMID:34765603;PMCID:PMC8576403.

LuJ,ChenY,ZhangX,GuoJ,XuK,LiL.Anovelprognosticmodelbasedonsingle-cellRNAsequencingdataforhepatocellularcarcinoma.CancerCellInt.2022Jan25;22(1):38.doi:10.1186/s12935-022-02469-2.PMID:35078458;PMCID:PMC8787928.

THE END
1.[数据挖掘]对TCGA数据库的五种癌症的数据挖掘与分析1.目的通过实际数据集上的编程实践,掌握高维数据常用的数据探索与可视化技术,观察和理解“维数灾难”问题的涵义、以及相似性度量和维归约的重要性。 2.数据癌症基因图谱(The Cancer Genome Atlas Program, TCGA…https://zhuanlan.zhihu.com/p/693479933
2.生信算数据挖掘技能吗mob64ca12f062df的技术博客生信数据挖掘技能教程 数据挖掘在生物信息学(生信)领域中的应用日益受到重视,掌握一定的生信数据挖掘技能将有助于深入理解生物数据,并从中提取有价值的信息。本文旨在帮助刚入行的小白理解生信数据挖掘的流程,并提供具体的实现步骤与代码示例。 生信数据挖掘的整体流程 https://blog.51cto.com/u_16213431/11800583
3.生信技能树数据挖掘week11/4感谢生信技能树小洁老师[https://www.jianshu.com/u/c93ac360691a] 新建一个项目 在开始一项新的工作时,在R studio中新建R prohttps://www.jianshu.com/p/0e0c44b8db2f
4.生信技能树数据挖掘Day2腾讯云开发者社区生信技能树-数据挖掘Day2 Day2主要内容:向量 一、向量生成 二、单个向量操作 三、两个向量操作 四、向量筛选(取子集) 数据结构 脚本乱码了怎么办 单个向量操作 运算两个向量 1、比较运算 2、数学计算 3、连接 循环补齐原则 循环补齐发生的条件:等位运算;两个向量长度不相等https://cloud.tencent.com/developer/article/2309795
5.生信&数据挖掘——人工神经网络篇(3)差异分析生信&数据挖掘——人工神经网络篇(3)差异分析 本文介绍了基因表达差异分析(DEA)的基本原理和方法,包括logFC、P值等关键指标。文章详细展示了如何通过R语言的limma和pheatmap包对多个基因表达数据集进行合并、差异分析和可视化,最终生成差异基因的火山图和热图。https://blog.csdn.net/qq_62932195/article/details/128743699
6.微生物多样性数据挖掘生信课程百迈客基因学院微生物多样性数据挖掘生信课程 扫二维码继续学习二维码时效为半小时 47人加入学习 (0人评价) 价格 ¥1888.00 教学计划 默认教学计划 学习有效期 365 天(随到随学) 购买课程 介绍 目录 笔记(0) 评价(0) 课程介绍 本课程主要介绍基于R语言对微生物多样性基础分析结果进行基础绘图和高级分析,课程http://live.biocloud.net/course/275
7.生信大数据分析服务机构的行业四、数据挖掘 生信大数据分析服务机构通过数据挖掘技术,挖掘出隐藏在大数据中的有价值的信息。他们利用机器学习、深度学习和人工智能等技术,建立预测模型,预测基因功能、蛋白质结构和药物靶点等重要信息。这些预测结果可以为药物研发、疾病诊断和治疗提供重要参考。 http://chatgpt.cmpy.cn/article/4835242.html
8.00后博士生一作兼通讯,最新NC:转录组学分析全生态算法框架由于测序平台的技术限制以及酶解过程造成的细胞丢失,某些细胞类型在单细胞测序中有时会被遗漏,例如足细胞、中间祖细胞、神经元等。因此,开发能够应对单细胞数据中“遗漏”情况的算法工具,对于推动单细胞组学分析具有极其重要的意义。 此外,尽管组学算https://mp.weixin.qq.com/s?__biz=MzAxNzEwNjY2MA==&mid=2651134746&idx=3&sn=40a475040bceb893797fd132dc9bafc2&chksm=813aa790d0e2427f7fcdf119545e07103b578a5fd810f3cfcc83b23559c1fd9cc5913659d0a6&scene=27
9.生信技能树day9GEO数据挖掘从我们生信技能树历年的几千个马拉松授课学员里面募集了一些优秀的创作者,某种意义来说是传承了我们生信技能树的知识整理和分享的思想! 今天的是三周合计15天的数据挖掘授课学员一点一滴整理的授课知识点笔记哦,还有互动练习题哈,欢迎大家点击文末的阅读原文去关注我们学员的公众号哦! https://github.com/ixxmu/mp_duty/issues/5127
10.直播回顾单细胞测序:从样本制备到数据挖掘的全流程探讨6月8日,达普生物、高级科学家肖之夏老师为大家分享“单细胞测序生信分析及数据挖掘”的主题内容,详解生信分析概要、生信报告解读、生信数据挖掘及案例展示以及如何搭建一个好的生信平台。 其中,肖之夏老师在线仔细解读“Scaling of scRNA-seq experiments”“scRNA-seq Workflow & Application”“Reads Quality & Mappinghttps://www.yiqi.com/news/detail_23958.html
11.生信分析强助攻药物敏感性分析之oncoPredict包药物敏感性分析是生信数据挖掘常用的技能之一,目前做药敏分析最常见的就是两个R包:pRRophetic和oncoPredict。pRRophetic只适用于旧版本的R平台,最新版R平台使用这个包时可能会报错。这两个包的作者都是同一个人,oncoPredict可以看做是pRRophetic的升级版。两个R包的使用基本上思路一样,但使用的训练数据集不同。https://3g.dxy.cn/bbs/topic/50171296
12.从投稿到接收只用26天,这本出版纯生信的期刊值得关注有粉丝想找一本明确接收纯生信数据挖掘的,而且影响因子在2-3分左右,知名度不高而又不在中科院《国际期刊预警名单(试行)》名单( 2021年1月发布版)上的期刊,还有就是审稿速度比较快一点的,现在安排上了,这本期刊符合这些要求:Mathematical Biosciences and Engineering https://weibo.com/ttarticle/p/show?id=2309404664585553838188
13.生信数据挖掘软件哪个好帆软数字化转型知识库在选择生信数据挖掘软件时,可以考虑R和Bioconductor、Python和BioPython、Galaxy、GenePattern等工具。Python和BioPython是一对非常强大的工具组合,Python语言的广泛应用和丰富的库资源使其在生物信息学领域占有重要地位。BioPython库提供了大量的函数和模块,能够处理序列分析、结构生物信息学、基因组数据等多种生物信息学任务。https://www.fanruan.com/blog/article/600733/
14.生信自学网速科生物生信自学网-速科生物-免费生信视频教程,提供全方位生信数据挖掘学习,有TCGA数据挖掘,GEO表达谱芯片,SEER数据库,TARGET儿童肿瘤数据库,TCGA甲基化,网络药理学,中药复方网络药理学,16s测序,R语言,Perl语言学习,Cytoscape软件,GDSC数据库,GO富集,KEGG富集通路,https://www.biowolf.cn/
15.生信软件BioMercatorV4.2.3的详细的操作说明生信软件 BioMercator4V4.2.3最新版,进行QTL定位及其遗传图谱的构建。Biomercator用于对多个QTL 分析结果进行综合的Meta 分析,帮助育种家对数量性状的多个QTL研究结果进行综合分析,便于找到的对应基因 上传者:weixin_50905290时间:2020-10-12 医学和生信笔记公众号“生信数据挖掘”合集_R_bioinformatics.zip https://www.iteye.com/resource/weixin_50905290-12919370
16.生信分析和meta分析有什么不同生信分析和meta分析有什么不同;;生信分析是原始数据挖掘,基于高通量大数据挖掘分析,比如差异分析、富集分析、聚类分析、蛋白互做分析、预后分析等,是基础生物科研范畴,主要数据是原始芯片、测序等的高通量数据。meta分析属于文献二次挖掘,各领https://pro.biomart.cn/lab-web/que/316nrkago406q/32l4sqmgo2g85.html
17.一文带你走进单基因免疫浸润生信分析的殿堂知识中心2.如今纯生信数据挖掘不像最开始那几年随便挖一个表型都能发一篇文章,现在水涨船高,如果你挖掘到一个未曾报道的功能强大的基因,编辑第一反应就是这个表型是否可靠,第二反应就是让你拿实验进行验证。 所以,做单基因纯生信最好的打开方式就是阅读最新的文献,尤其是单细胞转录组的文章,它们会在单个细胞水平上发现很https://www.gaptech.cn/docs/ffe5ecc7-2bcd-4aed-ad14-c0a078d77fc4/
18.非肿瘤生信:与急性心肌梗死相关的关键miRNAs和靶基因的生物标志物。干生信文章中,除了基本的功能基因mRNA,以miRNA,lncRNA作为研究类型的生信文章也有很多,与mRNA生信数据挖掘的套路类似,属于花样翻新。 值得注意的是这篇文章并不是全生信,作者也做了一些湿实验。干湿结合,省去了被reviewer怼没有实验验证的情况。纯生信文章总是会落下不做实验怎能发文章的诟病。如果干湿结合,也能堵住一https://www.cnblogs.com/Ixiaozhu/p/17128712.html
19.临床生信之家临床生信之家由几位一线的临床医生和生物信息学(生信)大咖共同开发,目前已收录多达40种疾病类型数据。全站无需R语言基础,鼠标点击即可完成各种生信分析,分析结果可以用于丰富国自然标书内容,也可与湿实验结合,或进行纯生信的数据挖掘SCI文章发表。https://www.aclbi.com/
20.数据+基因组学(WGSWES和RNAseq)数据挖掘和生信分析~总结来说,CPTAC数据库是一个强大且综合性的资源,提供了丰富的肿瘤相关数据,可用于挖掘和验证差异表达基因及基因表达情况。根据不同的研究需求,结合多组学分析方法,可以深入挖掘潜在的标志物或靶点。对于生信分析有创新思路需求的小伙伴,可以随时联系番茄君,获取更多关于数据库的使用指导和分析建议。https://zhidao.baidu.com/question/1766972538563965028.html