卢雨儿1,2,胡桓1,2,陈玲玲1,程烽1,帅建伟1,2,林海1,2*
1厦门大学物理系,福建厦门
2中国科学院大学,温州研究院,浙江温州
收稿日期:2022年4月22日;录用日期:2022年5月22日;发布日期:2022年5月31日
摘要
关键词
Pseudo-TimeAnalysisofSingle-CellTranscriptomeDataBasedonNaturalLanguageProcessing
Yu’erLu1,2,HuanHu1,2,LinglingChen1,FengCheng1,JianweiShuai1,2,HaiLin1,2*
1DepartmentofPhysics,XiamenUniversity,XiamenFujian
2WenzhouInstitute,UniversityofChineseAcademyofSciences,WenzhouZhejiang
Received:Apr.22nd,2022;accepted:May22nd,2022;published:May31st,2022
ABSTRACT
Keywords:Single-CellSequencing,Pseudo-TimeTrajectoryInference,NaturalLanguageProcessing,Genomics
ThisworkislicensedundertheCreativeCommonsAttributionInternationalLicense(CCBY4.0).
1.引言
十多年来,单细胞测序方法蓬勃发展,这些发展使单细胞测序具有通量高、周期快、成本低、细胞捕获率高等优点。现在单细胞测序技术流程包括:首先将单个细胞进行分离,并确保其生物完整性不被破坏。目前常用的单细胞分离方法有连续稀释法、激光捕获显微切割术、显微操作法、荧光激活细胞分选术、拉曼镊子技术和微流控技术等。然后是细胞溶解与基因组获取,对细胞进行溶解来获取DNA或RNA基因组,该关键步骤技术的挑战是尽量保证基因组的完整性。目前细胞溶解的方法可以分为物理法、化学法和生物酶降解法。接着进行全基因组扩增,由于单个细胞中基因含量无法达到测序仪的检测线,因此需要对基因组进行扩增,目前常用方法是利用DNA聚合酶和不同形式的引物来进行扩增,引物包括特异性的、简并的或杂合的引物。近年来,单细胞测序分析在肿瘤、发育生物学、微生物学、神经科学等领域发挥着日益重要的作用,成为了生命科学极具潜力的热点研究工具[3][4][5][6]。
2.模型算法
Figure1.Workflowofpseudo-timetrajectorymodelbasedonnaturallanguageprocessing
2.1.数据预处理
基于数据特征所展示的单细胞测序技术局限所带来的影响,我们将对单细胞数据进行一些预处理。首先对细胞原始数据进行质量控制,去掉低质量的细胞,然后对转录组表达进行归一化处理和对数化处理,得到处理后的单细胞转录组矩阵。
2.2.基因相似性网络构建
在细胞这个生命基本单元中,基因支持着生命的基本构造和性能,通常一个细胞中包含上万种基因,这些基因对细胞功能也有不同的贡献。受到自然语言处理中TF-IDF技术的启发[21][22],我们认为,这些不同贡献可以由基因的重要性来表示,因此,为表示一个细胞中不同基因对细胞功能的不同贡献,我们定义了基因的词频–逆词频指数TFIDFij,该指数能够表示基因j对细胞i功能的重要程度,即当某个基因j在某个细胞i中的TFIDF较大时,就认为这个基因对这个细胞较为重要。
为此,首先定义基因频率:
其次定义基因j的逆文件频率:
最后,基于余弦相似度定义基因i和基因j之间的接近度:
2.3.细胞文本语言处理
基于基因网络图,我们采用随机行走的方式来构建基因文本。在网络中取初始节点,可遍历取点,也可随机取点,从初始节点开始随机行走,即从一个节点以边权重为概率走到下一个邻居节点。
其中D是n×n的矩阵,是每个节点的度加权和的对角矩阵,矩阵元素表示为
随机行走后记录走过的每一个基因,即形成由基因序列构成的基因文本。
接下来,我们采用词嵌入算法[23],将基因序列构成的基因文本转换成基因的词向量。词嵌入过程就是把一个维数为所有词数量的高维空间嵌入到一个维数低的连续向量空间中,每个单词或词组被映射为实数域上的向量,词嵌入的结果就生成了词向量。获得基因的向量表示后,由于每个单细胞表达一组基因,将单细胞表达的基因矢量以表达量为权重加和,形成的合矢量可作为该细胞在基因空间中的矢量表示:
2.5.单细胞转录组数据
3.分析结果
Figure2.Violinplotsofhumanembryonicstemcelltranscriptomesequencingdata,includingthenumberofgenespeciesincells(left),thetotalamountofgeneexpressionincells(middle),andthepercentageofmitochondrialgeneexpressioninthetotalamountofgeneexpression(right)
Figure3.Humanembryonicstemcellgenenetworkstructure(a)andgenevectorrepresentation(b)
Figure4.Pseudo-timedistributionofhumanembryonicstemcellsbasedonUMAP
Figure5.Pseudo-timetrajectoryinferenceofhumanembryonicstemcellsbasedonVIAalgorithm
4.结论
基金项目
本论文获得国家自然科学基金项目(批准号:11874309,12090052)的资助。