单细胞最新入门教程系列(三):单细胞数据分析中的质量控制SYMBOLMitoERCCcell单细胞基因细胞

有时很难想出一个明显的过滤截止点。在这种情况下,自适应阈值可以帮助我们识别在我们用于QC的任何变量中与中位数绝对偏差(MAD)相差超过3个中位数的点。

01、单细胞数据集构建和质量控制

一旦基因表达被量化,它被总结为一个表达矩阵,每一行对应一个基因(或转录本),每一列对应一个细胞。下一步,应检查矩阵以去除质量差的细胞。如果不能在这一阶段去除低质量的细胞,可能会增加技术噪声,从而有可能模糊下游分析中感兴趣的生物信号。

由于目前没有执行scRNA-seq的标准方法,因此本文将介绍的各种质量控制QC的期望值可能因实验而异。因此,为了执行QC,我们将寻找相对于数据集其余部分的异常值,而不是与独立的质量标准进行比较。因此,在比较使用不同测序协议的数据集的质量时,应该分情况讨论。

02、Tung数据集

我们将使用scater包,以及AnnotationDbiorg.Hs.eg.db将ENSEMBLID转换为基因名称(符号)。

library(scater)library(SingleCellExperiment)library(AnnotationDbi)library(org.Hs.eg.db)library(EnsDb.Hsapiens.v86)

接下来,我们将读取矩阵和每个细胞的注释。后者转换为因子。

molecules<-read.delim("data/tung/molecules.txt",row.names=1)annotation<-read.delim("data/tung/annotation.txt",stringsAsFactors=T)

快速浏览一下数据集:

head(molecules[,1:3])##NA19098.r1.A01NA19098.r1.A02NA19098.r1.A03##ENSG00000237683000##ENSG00000187634000##ENSG00000188976361##ENSG00000187961000##ENSG00000187583000##ENSG00000187642000head(annotation)##individualreplicatewellbatchsample_id##1NA19098r1A01NA19098.r1NA19098.r1.A01##2NA19098r1A02NA19098.r1NA19098.r1.A02##3NA19098r1A03NA19098.r1NA19098.r1.A03##4NA19098r1A04NA19098.r1NA19098.r1.A04##5NA19098r1A05NA19098.r1NA19098.r1.A05##6NA19098r1A06NA19098.r1NA19098.r1.A06

在这里,我们设置altExp包含ERCC,从主对象中删除ERCC特征:

umi<-SingleCellExperiment(assays=list(counts=as.matrix(molecules)),colData=annotation)altExp(umi,"ERCC")<-umi[grep("^ERCC-",rownames(umi)),]umi<-umi[grep("^ERCC-",rownames(umi),invert=T),]

现在,让我们将ENSEMBLID映射到基因符号。从命令中table,我们可以看到大多数基因都被注释了;但是,846返回了“NA”。默认情况下,mapIds每个ID还原一个符号;可以使用参数multiVals更改此行为。

删除所有没有找到符号的基因:

umi<-umi[!is.na(rowData(umi)$SYMBOL),]

检查一下是否可以在新注释的符号中找到线粒体蛋白。

grep("^MT-",rowData(umi)$SYMBOL,value=T)##namedcharacter(0)

奇怪的是,这什么也没返回。查找核糖体蛋白(以RPL或RPS开头)的类似命令按预期工作:

grep("^RP[LS]",rowData(umi)$SYMBOL,value=T)

快速搜索线粒体蛋白ATP8(也称为MT-ATP8)显示该名称不包含“MT-”。但是,正确的特征(ENSEMBLIDENSG00000228253)存在于我们的注释中。

grep("ATP8",rowData(umi)$SYMBOL,value=T)##ENSG00000143515ENSG00000132932ENSG00000104043ENSG00000081923ENSG00000130270##"ATP8B2""ATP8A2""ATP8B4""ATP8B1""ATP8B3"##ENSG00000124406ENSG00000228253##"ATP8A1""ATP8"

大多数现代注释,例如使用的CellRanger注释,将具有以MT-开头的线粒体基因名称。出于某种原因,我们发现的那个没有。注释问题通常很常见,应始终仔细考虑。在我们的例子中,我们也找不到基因的位置,因为染色体不受支持org.Hs.eg.db——这个数据库中没有基因组位置列:

columns(org.Hs.eg.db)##[1]"ACCNUM""ALIAS""ENSEMBL""ENSEMBLPROT""ENSEMBLTRANS"##[6]"ENTREZID""ENZYME""EVIDENCE""EVIDENCEALL""GENENAME"##[11]"GENETYPE""GO""GOALL""IPI""MAP"##[16]"OMIM""ONTOLOGY""ONTOLOGYALL""PATH""PFAM"##[21]"PMID""PROSITE""REFSEQ""SYMBOL""UCSCKG"##[26]"UNIPROT"

让我们尝试一个不同的、更详细的数据库-EnsDb.Hsapiens.v86。利用这一资源,我们可以找到位于线粒体中的13个蛋白质编码基因:

ensdb_genes<-genes(EnsDb.Hsapiens.v86)MT_names<-ensdb_genes[seqnames(ensdb_genes)=="MT"]$gene_idis_mito<-rownames(umi)%in%MT_namestable(is_mito)##is_mito##FALSETRUE##1806513

03、基本的质量控制

现在,我们可以使用将上面计算的指标添加到每个细胞和每个基因元数据的函数:

umi<-addPerCellQC(umi,subsets=list(Mito=is_mito))umi<-addPerFeatureQC(umi)

手动过滤可以使用我们选择任何截止值。为了找到一个好的值,最好看一下分布:

hist(umi$total,breaks=100)abline(v=25000,col="red")

hist(umi_cell$detected,breaks=100)abline(v=7000,col="red")

有时很难想出一个明显的过滤截止点。在这种情况下,自适应阈值可以帮助我们识别在我们用于QC的任何变量中与中位数绝对偏差(MAD)相差超过3个中位数的点。注意指定偏差的正确方向:事实上,检测到的基因数量少,但MT基因百分比高,是低质量细胞的标志:

让我们添加另一个元数据列,该列将保留有关单元格是否被丢弃的信息:umi$discard<-reasons$discard

不感兴趣

看过了

取消

人点赞

人收藏

打赏

我有话说

0/500

同步到新浪微博

您的申请提交成功

您已认证成功,可享专属会员优惠,买1年送3个月!开通会员,资料、课程、直播、报告等海量内容免费看!

THE END
1.浙江大学研究团队发文!“单细胞+空间转录组+巨噬细胞”,这个套路这篇文章借助对bulk、单细胞以及空间转录组数据的整合,并结合荧光染色结果,明确了PSME2在癌症中所起的作用,且将其确定为M1型巨噬细胞浸润的生物标志物。通过体外实验进一步验证了PSME2过表达对肿瘤增殖、迁移和侵袭活性的影响。运用Alphahttps://mp.weixin.qq.com/s?__biz=MzA5ODQ1NDIyMQ==&mid=2649788026&idx=8&sn=502c42b6f847bbc5de7e4a4ca13d6262&chksm=89f3bcd25ace58d7b059a7bf3e367ef6b3be6635c96ab3c0cb1d9899b8fb428a315dd364d89c&scene=27
2.单细胞barcode和umi的作用单细胞umi本文详细介绍了单细胞测序中GelBeads上的特殊序列,包括16nt的Barcode用于标记细胞,确保同一细胞的所有基因序列带有相同标识;12nt的UMI则用于绝对定量,解决mRNA扩增效率差异导致的误差。通过Barcode和UMI,可以准确追踪并量化每个细胞的基因表达情况。 摘要由CSDN通过智能技术生成 https://blog.csdn.net/weixin_47707171/article/details/120173160
3.哈佛大学单细胞课程笔记汇总(四)51CTO博客什么是doublets?简单的说就是两个细胞混在一起,可能发生在细胞捕获过程中,并且可能会误导认为是两种细胞类型的过渡态(transitory states),所以应该去除(单细胞预测Doublets软件包汇总-过渡态细胞是真的吗?)。 我们为什么不检查doublets呢?许多的工作流程都是通过设置UMI或genes的最大阈值进行的,其原理为大量的reads或基https://blog.51cto.com/u_16077014/6240505
4.早期前列腺癌的检测用标志物蛋白分子检测方法及应用与流程4.10xgenomics平台首先利用微流控技术分选单个细胞,然后将带有barcode和引物的凝胶珠以及单个细胞包裹在油滴中;在油滴中凝胶珠溶解释放反转录oligo,细胞裂解释放mrna,通过smart法获得用于测序的带barcode的cdna;液体油层破坏后,cdna进行后续文库构建,使用illumina测序平台检测,即可一次性获得大量单细胞的基因表达数据,10min内http://mip.xjishu.com/zhuanli/27/202211476403.html
5.UMIATACseq数据分析及植物单细胞ATACseq技术的探索为了能更深入地研究植物的生长发育过程,重塑细胞发育轨迹,亟待建立适用于植物领域中的单细胞ATAC-seq高通量实验平台。本研究以水稻(Oryza sativa L.)幼穗为实验材料,在普通ATAC-seq实验过程中引入了独特分子标签并设计了独特的Tn5接头,经优化的染色质可及性测序方法命名为UMI-ATAC-seq(Unique Molecular Identifiers,https://cdmd.cnki.com.cn/Article/CDMD-10504-1021883541.htm
6.cfDNA(带UMI标签的fq数据WES)的生信处理call突变流程单细胞测序的步骤中增加了 UMI(unique molecular identifiers),UMIs 是由 4-10 个随机核苷酸组成的序列,在 mRNA 反转录后,进入到文库中,每一个 mRNA,随机连上一个 UMI,因此可以计数不同的 UMI,最终计数 mRNA 的数量。 10X genomics单细胞测序通过Barcode来标记细胞,UMI 来标记转录本,这样与参考基因比对后就可以https://www.jianshu.com/p/0e6520bdd1df
7.单细胞测序平台—上海普迈福药物研究开发有限公司烈冰普迈福单细胞测序平台,同时拥有行业认可的10x Genomics单细胞平台,以及拥有单细胞UMI技术和单细胞蛋白质组测序专利的BDRhapsody平台。可以同时开展单细胞转录组测序以及单细胞蛋白质组测序,通过蛋白质表达这一終产物的表达校正,使得细胞分类精度上升一个台阶。 http://pmfbiotech.com/sales.aspx?id=15
8.为了一篇单细胞文章,有必要把自己培养成生信工程师吗?这是一个被反复讨论的问题,单细胞测序技术已经成为研究细胞异质性和复杂生物问题的强大工具。然而,随着数据的激增和复杂度的增加,数据分析成为研究的关键步骤,需要研究人员在这个过程中付出极大的精力与学习成本。在正式学习单细胞数据分析前,首先需要进行R语言(R语言基础学习手册)、Python(生信Python速查手册)、Linux(十https://www.bilibili.com/opus/1011378868828766208
9.单细胞转录组测序–纯迅生物GEMs形成后,细胞在其中裂解,释放出mRNA,凝胶珠自动溶解释放大量barcode序列,利用PloyT引物捕获液滴中的mRNA。随后mRNA逆转录产生带有Barcode和UMI信息的cDNA,构建标准测序文库。 2.1 单细胞悬液制备 新鲜组织样本需要消化成单细胞悬液,对于培养的细胞或已经处于悬浮状态的细胞,需要对细胞洗涤以去除培养基。在进行单细胞https://www.chunxunbio.com/?page_id=153
10.Science单细胞转录代谢标记揭示mRNA降解策略Science | 单细胞转录代谢标记揭示mRNA降解策略 近日,荷兰科学家Alexander van Oudenaarden在Science发表文章Sequencing metabolically labeled transcripts in single cells reveals mRNA turnover strategies,将代谢标记和单细胞测序相结合,测定了异质细胞群体的mRNA合成与降解速率。http://www.mebis.cn/kexuexinwen/208.html
11.深入浅出解读单细胞转录组测序技术路线细胞标记是利用十多个碱基的核苷酸序列作为标签(Barcode),在单细胞微反应体系的逆转录过程中进行标记,同一个细胞内的所有转录本标记上相同的Barcode,这样在后续建库时能够混合操作,在数据分析层面也能够达到区分单细胞表达谱数据的目的,如STRT-seq[5]、CEL-seq[6]等。随着技术的升级,后来又引入了单细胞转录本UMI(http://m.yunbios.net/cn/h-nd-840.html
12.NatureMethods具有组合流体索引的超高通量单细胞RNA测序方法为了评估scifi-RNA-seq液滴超载的性能,作者将15,300、383,000和 765,000 个预索引核进行单细胞测序。确定了在基于液滴的 scRNA 实验中将细胞/细胞核与噪声分开的单细胞条形码中UMI分布的拐点。发现回收的单细胞转录组的数量与加载的细胞核数量成比例。并且,预索引能够从测序数据中确定每个液滴(由 round2 条形码https://cloud.tencent.com/developer/article/2115981
13.单细胞umi过滤阈值通过UMI过滤,可以减少测序偏差的影响,提高基因表达的准确性。 UMI过滤的阈值是根据UMI的数量来确定的。一般来说,UMI的数量越多,表示该RNA分子在细胞中的表达水平越高。因此,通过设置一个合适的UMI过滤阈值,可以筛选出高质量的单细胞转录组数据,提高后续分析的准确性和可靠性。 UMI过滤的阈值选择要根据具体实验的目的https://wenku.baidu.com/view/9377739682c758f5f61fb7360b4c2e3f5627254f.html
14.温和细胞分选,开启单细胞测序成功的第一步!企业动态2. 经由MQ Tyto分选,每个单细胞可捕获更多的mRNA数量(UMI),获得更多可分析的基因数(Genes);显示MQ Tyto保留了细胞的完整性。 质控图 3.传统液滴式流式(Droplet cell sorter)细胞分选后细胞应激基因表现明显上调。这主要是来自于细胞分选操作过程中所受到的外力刺激,而非原始组织环境细胞的真实表现。 https://www.biomart.cn/news/16/2930094.htm
15.公开课10xGenomics单细胞转录组测序全流程详解与实验设计10x Genomics Chromium系统通过每个微反应体系中含有的特定DNA标记序列(10x barcode和UMI )区分不同单细胞和转录本,可实现单细胞分辨率上的各类测序。近年来,基于10x 单细胞测序的高分文章发表数量逐年递增,且平均影响力因子超15分!真可谓是高分文章发表利器。 http://www.gene99.com/newsActDetail/3-1358.html
16.singlecell单细胞测序分析教程PublicLibraryofpolyA尾大约15nt(一般保守的内源mRNA的polyA尾有250nt)。用它是为了更好地估计和消除单细胞测序文库的系统误差(除此以外,还有一种UMI在10X中常用)。ERCC应该在样本解离后、建库前完成添加。 # grepl返回逻辑值 isSpike(sce,"ERCC")<-grepl("^ERCC",rownames(sce))https://www.plob.org/article/20855.html
17.盘点丨单细胞测序平台大集合!各自都具备何种优势?? 靶向定制通道,选定特定基因组合,提高UMI计数效率,罕见转录本检测阈值更低; ? 引入单细胞测序金标准,BD分子标签,降低非特异性表达; ? 完整cDNA可在磁珠微球结构保存长达16周,随用随取; ? 单次实验AbSeq kit通过独特的抗体标记方法,既可以提高样品通量(最多12个样本同时建库,可等分,可随机组合),又可http://www.singleseq.com/nd.jsp?id=1922
18.FLUIDIGMC1TM全自动单细胞制备系统(60页)C1TM单细胞制备系统原理及技术优势 ? 多功能平台——全方位的单细胞组学解决方案 ? RNA Seq ? STA ? DNA Seq ? Epigenetics ? Cell Dosing ? C1TM Open App模块 ? 国内外C1应用文献概况 基于SmartSeq的单细胞cDNA样本制备方案 SMARTer? (Clontech) 引物分子标签UMI (unique molecular https://max.book118.com/html/2019/1128/8073137110002065.shtm