单细胞转录组测序数据分析(一)

本期小编主要对scRNA-Seq的数据预处理(质控、细胞数量判断、多样本数据合并)进行介绍。

一、数据预处理流程

上海烈冰科技作为国内一家同时拥有BDRhapsody和10XGenomics双分选平台的测序服务商,针对不同的分选平台、建库方法,实战总结搭建出不同的数据预处理工作流程。

BDRhapsody数据预处理流程

10×Genomics数据预处理流程

二、工具介绍

SCFastp——采用fastp软件对下机原始数据进行过滤过短、低质量序列及接头处理等操作。

UMI_tools_whiteList——采用UMI-tools的whiteList功能建立真实细胞条码的白名单,结合BDscanner记录的捕获细胞来获得细胞数。

UMI_Tools_Extract——利用UMI-tools的extract功能根据上游工具得到的细胞条码白名单提取测序序列,并对这些序列进行质量过滤。然后使用STAR软件将过滤后的测序序列比对到参考基因组。

UMI_Tools_Counts——利用UMI-tools的FeatureCounts功能统计细胞内基因表达水平。

ScCountsCombine——BDRhapsody多样本数据合并的工具。

CellRangerCounts——10×Genomics的数据采用cellrangercount(3.1.0版本)工具进行细胞基因表达水平统计。

CellRangerAggregate——10×Genomics的数据采用cellrangeraggr(3.1.0版本)工具进行样本数据合并。

三、结果评估

1.质控:

单细胞测序产生数亿的结果序列,不可避免的会出现低质量的测序结果,存在各种情况的序列污染。因此序列过滤及质量评估就变得极为重要。

序列质量主要通过测序质量值Q20/Q30的占比来表征,即碱基测序结果的错误率在1%/0.1%以下的比例。理想的测序结果reads的碱基质量均高于30。

2.细胞数量判断:

主要是对细胞数量、基因表达量、测序质量进行整体描述。

1)过滤标准:

由于细胞破碎后游离RNA会释放到环境或微孔中,并且测序中也会存在一些死细胞,导致数据存在background值。因此,我们需要设定一定的标准来过滤掉假细胞或死细胞。

以10×Genomics为例,细胞数量判断主要通过分析UMICounts-Barcode曲线斜率拐点,当存在多个斜率拐点的时候,结合预期UMI=500时的细胞数量进行过滤。当第一个斜率拐点低于UMI=500的时候,选择UMI=500作为细胞的判断的标准;否则,选择和预期细胞数量最为接近的拐点作为细胞判断的位置。这样我们能够有效获得真实的并且在基因数量上可以分析的数据。

2)定量reads数、基因表达量及细胞数量:

a)MeanReadsperCell:以捕获5000个细胞、100G的测序量为标准,每个细胞的reads数大约在50k左右;

b)MedianGenesperCell:每个细胞的基因中位数取决于样本的细胞类型,例如在成熟B、T、粒细胞数量较多的组织中,由于这些类型细胞表达的基因数普遍较少,导致基因中位数较低。而像肿瘤组织、或者体外培养的干细胞/类器官组织,它们的基因表达数较高,甚至可以超过1W,这就导致该类样本基因中位数非常高。因此,我们确认细胞数量以及基因中位数时,需考虑实际组织的细胞类型组成情况。

c)FractionReadsinCells:每个样本过滤后细胞的reads数占总reads数(含背景)的百分比,反映的是测序数据的利用率。该参数的理想值应达到80%以上。

3.多样本数据合并:

FractionofReadsKept:多样本进行数据合并时,各样本根据MappedBarcodedReadsperCell数量计算出来的数据利用率。若各样本间FractionofReadsKept数值相差很大,需要进行Downsample处理,以数据量少的样本为基准将不同样本中细胞测序深度标化到同一水平,从而避免因测序深度差异导致的基因检测数量、基因表达水平的差异。

总的来说,单细胞测序数据分析的预处理会对读取的序列进行过滤、接头处理等质控工作;还会从细胞的基因表达数量、丰度及线粒体基因占比等方面对细胞进行过滤;数据合并时需要注意各样本数据的利用率。

数据预处理完成后,接下来就要正式进入分析流程了。下期小编将为大家讲解scRNA-Seq中数据标准化、降维及聚类分析。

THE END
1.探秘RNA测序的高效工具——umis最后,通过tagcount命令,umis基于伪对齐结果,仅统计唯一UMIs,特别是在有足够证据支持的基因-UMI配对上,实现了高度可靠的表达量估算。 3.项目及技术应用场景 umis特别适合单细胞RNA测序数据分析,能够显著提升基于分子标签的表达量估算准确性。无论是探索特定细胞类型的功能、疾病模型中的基因表达差异还是进行复杂的细胞群体https://blog.csdn.net/gitblog_00903/article/details/141668251
2.分析带UMI标签的测序数据xiaojikuaipao分析带UMI标签的测序数据 20条回复 分析带UMI标签的测序数据 检测癌组织的低频突变,为了提高检测低频突变的灵敏度,往往进行高深度的测序。但样本之间存在交叉污染,测序有存在一定概率的错误,这些因素会导致高深度测序过程中将假阳性的信号放到,得到假阳性的结果。解决https://www.cnblogs.com/xiaojikuaipao/p/14976793.html
3.UMI转录组测序产品介绍UMI 转录组测序,在文库扩增前为每一条逆转录的 cDNA 添加唯一的分子标签,标签伴随着片段扩增、测序和分析的全部过程,在保证精准定量的前提下,能够既可以检测基因表达水平差异,又可以提供结构分析, 还能发现稀有转录本,精确地识别可变剪切位点、基因融合等。 https://www.novogene.cn/novo/umi-zlz_cpjs_166.html
4.提升UMI分析精度和计算效率:SentieonUMI分子标记处理模块在我们的模拟数据测试中,我们分析了统计模型给出的质量值和实际的错误率之间的关系,针对所有模拟的情况,包括不同的单链、PCR和测序错误率。从上图统计中我们发现,我们给出的质量值高度准确的体现了这些统计过程的所引入的随机错误。这证明了Sentieon UMI不但在建立consensus序列上有极高的正确性,同时也能为每个consenshttps://cloud.tencent.com/developer/article/2305469
5.绝对定量转录组测序——拯救你的微量样本企业动态别着急小编今天就给大家介绍两种绝对定量测序:UMI mRNA-seq和UMI miRNA-seq,完美解决样本量不够的问题,顺便还能得到比常规测序更精准的结果,大家一起来了解一下。 什么是绝对定量测序 传统RNA-seq 定量分析过程中,由于建库过程中PCR 对片段长度和 GC 碱基含量的偏好会导致部分文库片段丰度失真,进而对定量结果产生影响https://m.biomart.cn/news/16/3160411.htm
6.单细胞+分子标签!Takara推出全新单细胞测序试剂盒测序中国添加UMI也能构建高质量单细胞文库 对FACS分选的单个外周血单核细胞使用SSmRNA(不含UMI)或SSmRNA + UMIs生成测序文库,然后进行建库分析(使用CogentAP处理)。 结果显示,虽然添加UMIs,但两者的基因检测数和reads分布基本一致,也表明数据质量不受影响。 与Smart-seq2数据比较 https://www.shangyexinzhi.com/article/10935752.html
7.唯一分子标记(UMIs)确保测序的准确性软件和分析 服务 热门产品 浏览所有产品 仪器 测序平台 芯片扫描仪 所有仪器任何地方,任何实验室 使用NGS测序,以无与伦比的简便性和难以想象的速度 了解MiSeq i100 系列 试剂盒和试剂 文库制备试剂盒 测序试剂 芯片试剂盒 临床研究产品 所有试剂盒和试剂 NextSeq 1000和NextSeq 2000试剂盒 NextSeq 1000和Nehttps://www.illumina.com.cn/techniques/sequencing/ngs-library-prep/multiplexing/unique-molecular-identifiers.html
8.一文读懂单分子标签UMI2. 仪器系统误差:最常使用的Illumina 测序仪来说,误差率在~0.05% 到 ~1% 之间,具体取决于读取长度、所用的碱基识别算法和测定的变异类型 。 01 UMI 是啥? 分子标签(Unique Molecular Indentifier,UMI)是一段随机化或特定的核苷酸短序列,通常设计为完全随机的核苷酸链(如NNNNNN),部分简并核苷酸链(如NNNRNYN, https://zhuanlan.zhihu.com/p/642835804
9.经典文章配合单细胞的组学看过来!华中农业大学作物遗传改良国家重点实验室在《Advanced Science》期刊上(IF=15.1)发表了题为“Single-Cell Transcriptome Atlas and Regulatory Dynamics in Developing Cotton Anthers”的研究论文,通过对单细胞测序结果进行分析,揭示了高温影响花粉壁形成导致雄性不育的新机理,为后续培育出耐高温种质提供了理论基础。 https://www.bilibili.com/read/cv34048599
10.BDRhapsody单细胞分析系统功能用途:单细胞的RNA-seq测序,基因表达分析。Onco-BC靶向检测,免疫反应检测,T-细胞靶向检测。 1、靶向基因检测,避免看家基因占用大量测序数据,节省测序和分析成本 2、靶向定制panel,选定特定基因组合,提高UMI计数效率,罕见转录本检测阈值更低。 3、引入单细胞测序金标准,BD分子标签,降低非特异性表达。 http://portal.smu.edu.cn/zxsys/info/1017/1570.htm
11.代码分析单细胞转录组质控详解51CTO博客NGS系列文章包括NGS基础、转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这)、ChIP-seq分析 (ChIP-seq基本分析流程)、单细胞测序分析 (重磅综述:三万字长文读懂单细胞RNA测序分析的最佳实践教程 (原理、代码和评述))、DNA甲基化分析、重测序分析、GEO数据挖掘(典型医学设计实验GEO数据分析 (step-by-stephttps://blog.51cto.com/u_16077014/6240207
12.cfDNA(带UMI标签的fq数据WES)的生信处理call突变流程UMI简介 UMI(unique molecular identifer)是一种用来降低二代测序实验误差(sequencer, polymerase, DNA damage error and so on)的有效技术。建文库时在adapter处加入UMI,在生信分析时通过UMI区分真阳性突变和假阳性突变,提高检测的Sensitivity和Specificity。 https://www.jianshu.com/p/0e6520bdd1df
13.NatMethod丨校正UMI中的PCR扩增错误以生成测序分子的准确数量随后,作者使用ONT的PromethION平台对经历20和25个PCR循环的文库测序,结果表明,通过在条形码区域内掺入同源三聚体,实现回收细胞数量的增加,尽管很低(~15%)。以ENST00000330494为例,对比单体UMI和经同源三聚体校正的差异分析,发现单体UMI去重复导致20和25个循环文库之间超过300个差异调节的转录本,然而,同源三聚体校正后https://www.hanlab.net/newsinfo/7381297.html
14.转录组数据分析软件(分析转录组数据用什么软件)Seurat软件是一个R包,可以说是单细胞转录组测序分析的明星软件,很多单细胞测序文章都会引用该软件,引用次数也是杠杠的,而且也有详细的 在线教程 。本文也主要是根据其教程介绍一下使用Seurat软件分析一个样本的单细胞转录组数据的步骤及注意事项,供大家讨论。 https://www.huoban.com/news/post/121612.html
15.低频突变分析DNACap来源于 2 个健康捐献者的血浆游离 DNA 以 1% 比例混合,用于模拟游离血浆 DNA 中低频突变位点的检测,文库制备总投入量为 10 ng;针对已知 SNP 位点设计捕获 panel(图3)。通过 Illumina HiSeq X, PE150 平台测序后,利用双端分子标签(UMI),在不同分析与过滤方法下进行低频突变分析(表3)。 https://www.njnad.com/DNACap/389.html