本期小编主要对scRNA-Seq的数据预处理(质控、细胞数量判断、多样本数据合并)进行介绍。
一、数据预处理流程
上海烈冰科技作为国内一家同时拥有BDRhapsody和10XGenomics双分选平台的测序服务商,针对不同的分选平台、建库方法,实战总结搭建出不同的数据预处理工作流程。
BDRhapsody数据预处理流程
10×Genomics数据预处理流程
二、工具介绍
SCFastp——采用fastp软件对下机原始数据进行过滤过短、低质量序列及接头处理等操作。
UMI_tools_whiteList——采用UMI-tools的whiteList功能建立真实细胞条码的白名单,结合BDscanner记录的捕获细胞来获得细胞数。
UMI_Tools_Extract——利用UMI-tools的extract功能根据上游工具得到的细胞条码白名单提取测序序列,并对这些序列进行质量过滤。然后使用STAR软件将过滤后的测序序列比对到参考基因组。
UMI_Tools_Counts——利用UMI-tools的FeatureCounts功能统计细胞内基因表达水平。
ScCountsCombine——BDRhapsody多样本数据合并的工具。
CellRangerCounts——10×Genomics的数据采用cellrangercount(3.1.0版本)工具进行细胞基因表达水平统计。
CellRangerAggregate——10×Genomics的数据采用cellrangeraggr(3.1.0版本)工具进行样本数据合并。
三、结果评估
1.质控:
单细胞测序产生数亿的结果序列,不可避免的会出现低质量的测序结果,存在各种情况的序列污染。因此序列过滤及质量评估就变得极为重要。
序列质量主要通过测序质量值Q20/Q30的占比来表征,即碱基测序结果的错误率在1%/0.1%以下的比例。理想的测序结果reads的碱基质量均高于30。
2.细胞数量判断:
主要是对细胞数量、基因表达量、测序质量进行整体描述。
1)过滤标准:
由于细胞破碎后游离RNA会释放到环境或微孔中,并且测序中也会存在一些死细胞,导致数据存在background值。因此,我们需要设定一定的标准来过滤掉假细胞或死细胞。
以10×Genomics为例,细胞数量判断主要通过分析UMICounts-Barcode曲线斜率拐点,当存在多个斜率拐点的时候,结合预期UMI=500时的细胞数量进行过滤。当第一个斜率拐点低于UMI=500的时候,选择UMI=500作为细胞的判断的标准;否则,选择和预期细胞数量最为接近的拐点作为细胞判断的位置。这样我们能够有效获得真实的并且在基因数量上可以分析的数据。
2)定量reads数、基因表达量及细胞数量:
a)MeanReadsperCell:以捕获5000个细胞、100G的测序量为标准,每个细胞的reads数大约在50k左右;
b)MedianGenesperCell:每个细胞的基因中位数取决于样本的细胞类型,例如在成熟B、T、粒细胞数量较多的组织中,由于这些类型细胞表达的基因数普遍较少,导致基因中位数较低。而像肿瘤组织、或者体外培养的干细胞/类器官组织,它们的基因表达数较高,甚至可以超过1W,这就导致该类样本基因中位数非常高。因此,我们确认细胞数量以及基因中位数时,需考虑实际组织的细胞类型组成情况。
c)FractionReadsinCells:每个样本过滤后细胞的reads数占总reads数(含背景)的百分比,反映的是测序数据的利用率。该参数的理想值应达到80%以上。
3.多样本数据合并:
FractionofReadsKept:多样本进行数据合并时,各样本根据MappedBarcodedReadsperCell数量计算出来的数据利用率。若各样本间FractionofReadsKept数值相差很大,需要进行Downsample处理,以数据量少的样本为基准将不同样本中细胞测序深度标化到同一水平,从而避免因测序深度差异导致的基因检测数量、基因表达水平的差异。
总的来说,单细胞测序数据分析的预处理会对读取的序列进行过滤、接头处理等质控工作;还会从细胞的基因表达数量、丰度及线粒体基因占比等方面对细胞进行过滤;数据合并时需要注意各样本数据的利用率。
数据预处理完成后,接下来就要正式进入分析流程了。下期小编将为大家讲解scRNA-Seq中数据标准化、降维及聚类分析。