单细胞转录组测序技术的普及,为生命科学的研究提供了全新的手段。基于高通量单细胞转录组测序,既能发现特定组织中可能的细胞类型,也能了解不同细胞组成上的差别,更能通过基因表达图谱剖析不同细胞的基因特征,为理解细胞的功能提供数据支持。
同时,我们生信博士提供高效快捷的筛选marker基因的脚本供大家学习使用。
作者选取了10个肝癌病人共21个样本,取样类型包括:primarytumor(T)、portalveintumorthrombus(P)、metastaticlymphnode(L)、non-tumorliver(N);通过单细胞测序共得到28,687non-tumorlivercells和4,414primarytumorcells。通过Umap聚类分析得到28个clusters。
2.数据整理
单细胞的表达矩阵数据格式如下图所示,我们需要整理不同细胞的metadata数据:每个细胞属于哪个病人,以及属于什么类型的组织等等。有了metadata数据我们才能将细胞分类然后再进行后续的分析。
通过观察单细胞的表达矩阵数据(即上图第一行信息),我们可以把第一行信息提取出来,并整理成以下metadata格式数据。整理过程可以用以下shell代码快速实现。
3.利用脚本快速的进行单细胞数据分析
3.1数据读入与质控
细胞过滤参数:
表达基因数量过滤,500-8000;UMI数量大于500,线粒体基因比例小于30%。具体可以按照以下代码运行:
Rscriptscripts/seurat_sc_qc.r-iGSE149614_HCC.scRNAseq.S71915.count.txt.gz\--metadatametadata.tsv\--projectHCC-phcc--sep"\t"\-o01.read.hcc\--nGene.min500--nGene.max8000--percent_mito30--nUMI.min500数据过滤后结果如下图所示:
3.2单细胞聚类分析
单细胞聚类分析的关键参数如上图所示:聚类分析用到的PCA主成分前50轴,高变基因2000个,resolution分辨率0.1。其中分辨率越高聚类数量越多,为避免聚类结果太多,作者选用0.1的分辨率。以下为运行代码:
###2单细胞聚类分析Rscriptscripts/seurat_sc.r--resolution0.1--pt.size0.2\--rds01.read.hcc/hcc.afterQC.rds-o02.cluster-phcc--high.variable.genes2000--dim50#2.1查找marker基因Rscriptscripts/seurat_FindAllMarkers.r-i02.cluster/hcc.rds\-o02.cluster/-phcc.allMarker#2.2不同组织细胞dim图Rscriptscripts/seurat_DimPlot.r-i02.cluster/hcc.rds\--reductionumap--group.byTissueTypeAbbr--pt.size0.1-o02.cluster\-pTissueType.umap#不同类型细胞dim图Rscriptscripts/seurat_DimPlot.r-i02.cluster/hcc.rds\--reductionumap--group.byHCC--pt.size0.1-o02.cluster\-pisHCC.umap#肿瘤和正常样本分开绘制Rscriptscripts/seurat_DimPlot.r-i02.cluster/hcc.rds\--reductionumap--group.byseurat_clusters--split.byHCC--pt.size0.1-o02.cluster\-pHCC.split.umap-W15聚类分析结果展示:
3.3拟时序分析筛选出几团肿瘤样本特有的细胞亚群做拟时序分析,通过观察肿瘤样本和正常组织样本分开的散点图,进一步对比筛选其中的cluser2、17、10、19来进行后续的拟时序分析。
筛选过程可以通过以下代码实现:
#4.1筛选肿瘤样本特有的细胞亚群###筛选方法1:Rscriptscripts/subset_seurat_obj.r-i02.cluster/hcc.rds\--idents2171019\-o04.trajectory-phcc.tumorSub#查看筛选后的结果Rscriptscripts/seurat_DimPlot.r-i04.trajectory/hcc.tumorSub.rds\--reductionumap--group.byseurat_clusters--split.byHCC\--pt.size0.1-o02.cluster\-o04.trajectory-pHCC.sub.split.umap-W15--label筛选到的细胞单独聚类分析之后发现,这些亚群明显不出现在normal组中:
接下来就可以可利用monocle2做拟时序分析,具体代码如下所示:
参考文献:
LiC,ChenJ,LiY,WuB,YeZ,TianX,WeiY,HaoZ,PanY,ZhouH,YangK,FuZ,XuJ,LuY.6-PhosphogluconolactonasePromotesHepatocellularCarcinogenesisbyActivatingPentosePhosphatePathway.FrontCellDevBiol.2021Oct26;9:753196.doi:10.3389/fcell.2021.753196.PMID:34765603;PMCID:PMC8576403.
LuJ,ChenY,ZhangX,GuoJ,XuK,LiL.Anovelprognosticmodelbasedonsingle-cellRNAsequencingdataforhepatocellularcarcinoma.CancerCellInt.2022Jan25;22(1):38.doi:10.1186/s12935-022-02469-2.PMID:35078458;PMCID:PMC8787928.