基于CRISPR-Cas9的基因筛选是生物学中强大的新工具。通过简单地改变单向导RNA(sgRNA)的序列,人们可以相对容易地将Cas9重新编程为靶向基因组中的不同位点,但是单个sgRNA的靶向活性和脱靶作用可能差异很大。在这里,我们使用最近设计的sgRNA设计规则来创建人类和小鼠全基因组文库,进行正负选择筛选,并观察到这些规则的使用产生了改进的结果。此外,我们分析了数千个sgRNA的脱靶活性,并开发了一种指标来预测脱靶位点。我们从大规模的经验数据中整合了这些发现,以改善我们的计算设计规则,并创建优化的sgRNA库,以最大程度地提高靶标活性并最小化脱靶效应,从而实现更有效的遗传筛选和基因组工程。
许多研究表明,Cas9脱靶活性取决于sgRNA序列和实验条件。这些研究提供了对特异性决定因素的定性但不完整的理解。寻找可通用的模式非常具有挑战性,需要大量数据集来对大量可能的不完美的sgRNA-DNA相互作用进行充分采样,以揭示预测脱靶活性的序列特征。在这里,我们根据我们先前发布的预测目标效率的规则,介绍了人类和小鼠全基因组sgRNA文库的设计和表征。基于新库生成的筛选数据和脱靶活性的大规模评估,我们开发了用于脱靶和脱靶活性预测的改进算法,从而可以进一步优化我们的全基因组文库。
以前,我们检查了1,841个sgRNA的活性,以确定导致功效增强的序列特征,并制定了改进sgRNA设计的规则(规则集1)【14】。我们在分别名为Avana和Asiago的人类和小鼠全基因组库中实施了这些规则,并在表型筛选中测试了它们的性能。我们根据三个标准:
每个基因选择了六个sgRNA。先前发布的GeCKO6,和Koike-Yusa等人,库的规则集1分数的分布类似于零分布,因为这些库不是根据目标标准设计的(图1a)。Wangetal库纳入了提高sgRNA活性的早期规则,并且规则集1得分更高。根据设计,Avana和Asiago库是最丰富的预计具有活性的sgRNA。
我们首先使用一个完善的筛选系统对我们的文库进行了测试,该系统对A375黑色素瘤细胞具有维拉非尼(Zelboraf)的耐药性,该细胞携带BRAFV600E突变并且对MAPK途径抑制敏感(补充图1和2)6,16,17。我们以低感染度进行生物复制,转导了六个Avana亚库中的每一个,每个亚库每个基因包含1个sgRNA,并用GeCKOv1和GeCKOv2文库进行了相同的筛选。对于用Avana文库感染的细胞,我们还应用了MEK抑制剂selumetinib18,19,这是先前在此抗性模型中检查过的另一种小分子(补充图3)。我们通过相对于它们在质粒DNA池中的丰度的log2倍数变化对sgRNA进行排名,并根据两次重复的结果得出平均排名(补充表4)。
我们首先使用RIGER算法来分析GeCKOv1,GeCKOv2和Avana筛选(补充表5和补充图4)。但是,带有RIGER的加权和选项仅包含来自针对基因的前两个扰动的信息,而没有其他sgRNA提供的有关命中列表特异性的其他证据。因此,我们开发了STARS,这是一种替代的基因排名系统,可产生假发现率(FDR),奖励那些在检测中有很高sgRNA活跃的基因,类似于MAGeCK算法。使用STARS,我们观察到先前验证可赋予维罗非尼耐药性的6个基因(CUL3,MED12,NF1,NF2,TADA1,TADA2B)均在FDR<1%时得分(补充表6)。
我们直接比较了lentiGuide向量中这三个库的性能。在FDR<10%的情况下,提名了27个基因被GeCKOv1命中,而60个基因被GeCKOv2评分(图1b),这可能是由于文库大小而增加的,因为GeCKOv1平均每个基因3至4个sgRNA,而GeCKOv2每个基因包含6个sgRNA。。Avana对FDR<10%的评分为92个基因,每个基因还包含6个sgRNA。同样,在慢病毒CRISPRv2载体中筛选了用Avana文库评分的94个基因,在这两个载体中FDR<10%的36个基因评分。
我们检查了新的维罗非尼耐(vemurafenib)药性调节剂的数据。在Avana文库中,抑癌基因PTEN,TP53和RB1的FDR<1%,而在GeCKOv2文库中,这些基因的FDR分别为78%,7%和2%(补充表6)。因此,我们注释了PanCancer基因的命中列表,PanCancer基因是经过高度精心策划和验证的集合,其中包含许多基因,这些基因的丢失可能会恢复MAPK途径或激活其他生存途径(补充表7)。我们观察到,与任一版本的GeCKO相比,Avana库识别出的PanCancer基因更多。在FDR<10%的情况下,我们鉴定出四个具有GeCKOv1的PanCancer基因(P=1.1×105,超几何分布),六个具有GeCKOv2的基因(P=2.2×107)和十个具有Avana的基因(P=2.9×1011)。在selumetinib筛选中,Avana鉴定了20个基因(P=4.6×10-24),包括在可比的vemurafenib数据集中以相同阈值鉴定的10个基因中的9个(补充表8和9)。
尽管每个基因筛选更多的sgRNA可提高文库检测命中的能力,但较大的文库需要进行大规模筛选,从而减少了可以筛选的条件数量,并且限制了细胞数量有限的模型。我们进行了二次抽样分析,以确定减少sgRNA的数量如何影响vemurafenib筛选的命中列表。在lentiGuide载体中筛选的Avana库鉴定出FDR<10%时有92个结果。对于四个每个基因一个单sgRNA子池的组合,在相同的FDR下平均可回收52%的基因(图1d)。在宽松的FDR阈值<75%时,用4种sgRNA回收了92%的基因。对于在慢病毒CRISPRv2中筛选的Avana文库(93%)和在慢病毒指南(93%)和慢病毒CRISPRv2中的selumetinib筛选(93%),观察到的比率相似(补充图6)。该观察结果提出了一种有用的筛选策略,尤其是对于阵列筛选或合并模型,因为后者的规模扩大成本高昂或令人望而却步:以基因组规模对少量sgRNA进行初次筛选,使用相对宽松的分界值来进行命中选择,然后对每个基因使用额外的sgRNA对数百个主筛选命中进行次筛选。
我们证实了在结肠癌系HT29细胞中Avana文库的负选择筛选性能得到了改善(补充表10和11以及补充图10)。在这里,我们筛选了Avana文库的前四个子池,并观察到核心必需基因的耗竭有了显着改善,尽管使用了较少的sgRNA:具有4个sgRNA的Avana鉴定了161个基因,而具有6个sgRNA的GeCKOv2鉴定了92个基因(补充表12)。
为了在不同的测定中进一步测试Avana库,我们在三种不同的细胞系中筛选了对嘌呤类似物6-硫鸟嘌呤的抗性。在A375细胞中,单个sgRNA占据了六个亚细胞池的每个,而所有六个靶向HPRT1都在该测定法中得到了很好的确立(图2a和补充表14)。每个亚库中的HPRT1sgRNA的富集程度比排名第二的sgRNA至少高700倍,这表明该文库中的其他110,000sgRNA均未导致HPRT1基因座处的显着脱靶活性。在HT29和293T细胞中,HPRT1sgRNA高度富集,但靶向NUDT5也产生了6-硫鸟嘌呤抗性(图2a)。我们通过在这三种细胞类型中分别感染两种针对HPRT1和NUDT5的sgRNA的个体感染验证了这些观察结果(补充图11)。为了了解细胞系中NUDT5sgRNA的差异富集,我们通过TIDE技术检查了基因组DNA。在没有选择的情况下,两种sgRNA均导致所有三个细胞系中NUDT5的修饰(图2b),这表明观察到的细胞系之间的表型差异并不是由于无效的基因编辑。
6-硫鸟嘌呤是嘌呤挽救途径中HPRT1的底物,替代次黄嘌呤并因此引起毒性(图2c)。NUDT5在嘌呤合成中起着较早的作用,最终导致产生5-磷酸核糖基二磷酸酯(PRPP),这是HPRT1催化的肌苷一磷酸30的另一种底物。因此,NUDT5的消耗可能会阻止6-硫鸟嘌呤掺入的毒性作用(图2c)。A375和HT29细胞之间表型严重性的差异可能与以下事实有关:A375细胞丢失了NUDT5基因的一个等位基因,并且可能上调了产生PRPP的替代手段。
最后,我们在干扰素信号传导模型中测试了Asiago小鼠文库,其中BV2细胞受到干扰素γ攻击,对存活细胞的STARS分析显示,丰富的成熟的干扰素信号传导介质(表1和补充表15)。十个最丰富的sgRNA中有九个以Jak1,Stat1,Ifngr1或Ifngr2为目标,而这些基因的所有四个sgRNA均在被筛选的79,641个sgRNA的前25个中得分。有趣的是,用人类同源物查询分子特征数据库,发现FDR<50%时鉴定出的线粒体基因显着富集(FDR=8.99×10-12,超几何检验),以前没有干扰素信号传导。
利用针对17个基因的4,000多个sgRNA的组合数据,我们检查了每种sgRNA的功效及其在蛋白质编码区域中的位置(补充图12)。初始设计指南建议针对N端附近。另外,Vakoc及其同事最近报道了当靶向几个特征充分的蛋白质的特定结构域时,功能丧失等位基因的产生得以改善。但是,对于这里考虑的17个基因,我们没有观察到蛋白质编码序列的离散区域,这些离散区域显然是基因失活的生产力更高的目标位点(补充图12)。总体而言,我们观察到只有10%的蛋白质编码区域的C端显示出活性的统计学显着降低(P<0.02)(图3c)。扩展的靶位点窗口可在sgRNA选择上提供更大的灵活性,既可优化靶上疗效,又可将脱靶潜力降至最低。
以前,要生成规则集1,我们将每个基因的前20%sgRNA视为高度活跃,并在20%与80%分类模型中进行训练以识别预测特征【14】。我们将使用支持向量机(SVM)进行逻辑回归的该模型的性能与应用于sgRNA活性预测,SVM和L1逻辑回归的其他基于分类的方法进行了比较,并使用了leave-one-gene-out方法。评估FC,RES和组合数据集后,我们观察到了SVM和逻辑回归的最佳性能(图4a和补充图13)。在这些数据集上,先前发现具有信息性的仅靠SVM或L1逻辑回归模型增强了二核苷酸特征,其性能比SVM加logistic回归差(图4a)。
除了用于预测活动的建模方法外,另一个重要因素是featureset。以前,我们使用单核苷酸和二核苷酸位置特异性核苷酸,以及sgRNA的GC计数。我们假设其他特征,例如位置无关的核苷酸计数和sgRNA靶位点在基因中的位置,可以改善预测。生化和结构研究表明,sgRNA参与了与DNA的逐步(step-wise)关联,这表明局部热力学性质也可能有用。这些附加功能改进了所有数据集的L1回归模型(图4b)。提高sgRNA活性的微同源特性(Microhomologyfeatures,)可以单独预测,但添加到我们的最终模型中并不能提高性能。
为了进一步验证规则集2,我们评估了来自两个人类细胞系和小鼠胚胎干细胞的,独立的阴性选择数据集的性能,该数据集未用于构建或评估最终模型,这些数据由Xu及其同事策划。规则集1评分在所有三个数据集中均清楚区分了有效和无效的sgRNA,P值分别为1.4×10-32、1.8×10-16和1.1×10-11(两次样本Kolmogorov-Smirnov检验;补充图17)。在规则集2中,我们观察到了有效和无效sgRNA之间的更大区别,P值分别为5.9×10-80、2.1×10-24和3.9×10-35(图4e),说明了我们的建模方法的一般性。
sgRNA的脱靶作用已在许多实验系统中进行了广泛研究,关于脱靶活性程度的结论也有很大差异【5】。我们试图利用针对人CD33编码序列以及所有可能的sgRNA的文库,在哺乳动物细胞的典型合并筛选条件下了解脱靶效应,而与PAM无关。对于具有规范NGGPAM的所有位点,除了完美匹配的sgRNA,我们还引入了三种类型的sgRNA突变:
从而产生具有27,897个独特sgRNA的文库。我们向它们添加了10,618个靶向小鼠Thy1基因座的sgRNA,用作阴性对照。我们感染了MOLM13细胞,并进行了流式细胞术以分离出CD33阴性细胞(补充图18和补充表18)。
我们用NGGPAM检查了完全匹配的sgRNA的活性,以鉴定导致功能强烈丧失的CD33目标位点,随后的分析仅在该区域检查了sgRNA(补充图19)。使用阴性对照sgRNA定义无活性,我们比较了具有不同PAM序列的sgRNA的活性。不出所料,具有NGGPAM的sgRNA的活性sgRNA比例最高,为91%(图5a)。一些替代的PAM序列导致显着但较小的sgRNA活性比率:NAG(26%),NCG(11%)和NGA(7%)。尽管应避免使用其他PAM来最大化目标上的活动,但必须将其视为潜在的目标外位置。
接下来,我们检查了三种不同类型的变体产生的活动变化。RNA的缺失很少产生活性(图5c),而RNA的缺失会产生单个凸起的DNA碱基。在76个核苷酸和位置组合中(我们未评估1号核苷酸),使用dLFC度量标准,只有14种此类缺失保留了高水平的裂解(P>10-4),其中13种发生在2、3位,分别是19和20。值得注意的是,在19和20位,我们观察到对RNA中胞嘧啶核苷的缺失在DNA中产生鼓泡的鸟嘌呤的耐受性较差,只有4%的sgRNA表现出活性,而其他核苷酸的缺失则导致平均有44%的活性sgRNA。同样,sgRNA序列中的额外碱基很少保留活性。只有位置2和3在相同的P值阈值下才产生高水平的活动(图5d)。对于少数例子,已经检查了导致凸出的RNA或DNA碱基的不对称sgRNA-DNA相互作用,我们的结果在质量上是一致的。
最后,我们检查了sgRNA与DNA之间的单碱基错配。总体而言,错配核苷酸的位置和身份在决定活性中起着重要作用(图5e)。例如,即使在PAM近端区域,rG-dT错配也被普遍容忍:在所有位置中,这些相互作用中的256个(289个中的89%)是活跃的。相反,只有37%的rC-dC相互作用保留了sgRNA活性。然而,其他核苷酸错配在不同位置具有完全不同的作用。例如,与DNA中的胸苷有31个错配的30个相比,在位置16的46个嘌呤-嘌呤错配中的0个是有活性的。相比之下,在位置19,41%的嘌呤-嘌呤错配和48%的配对错误的胸苷导致活性sgRNA。这些结果表明,每种类型的错配都必须进行单独评估,并且标出脱靶位点的指标必须结合不完全匹配的RNA-DNA相互作用的位置和特性。
接下来,我们检查了这些脱靶得分指标的特异性。重要的是,我们观察到E-CRISP门户网站使用的对齐工具Bowtie2(参考资料44)不会返回所有可能的不匹配位点,尤其是当不匹配数增加时(补充图22)。因此,E-CRISP和Zhang门户在识别Joung和同事记录的脱靶站点中表现不佳,可能部分原因是无法识别所有高同源性候选站点,而不是一旦找到站点就得分。因此,我们使用了Cas-OFFinder(一种相对较慢但功能全面的工具)来识别与GUIDE-seq检测的九种sgRNA的六种或更少错配的所有可能位点,并使用各种指标对其进行评分。随着潜在的脱靶位点的数目随错配数目的增加而呈指数增加,我们分别进行了检查(不包括一个错配的位点,因为没有这样的位点的zeroGUIDE-seqreads,因此无法确定敏感度)。我们观察到CFD评分表现最佳,AUC值在0.82-0.98之间,而Hsu-Zhang评分在0.61至0.87之间,CCtop的评分在0.64至0.77之间(图5g)。我们得出的结论是,CFD评分将能够避免大多数高频脱靶效应。
Figure6On-targetandoff-targetpropertiesoftheBrunelloandBrielibraries.(a)DistributionofRuleSet2on-targetactivityscoresacrosslibraries.Theboxrepresentsthe25th,50thand75thpercentiles,whiskersshow5thand95thpercentiles.(b,c)Cumulativedistributionofthenumberofoff-targetsiteswithCFDscores>0.2inprotein-codingregionsacrosshumanlibraries(b)andmouselibraries(c).
使用先前的合理设计sgRNA的规则(规则集1),我们创建了人类和小鼠全基因组文库并进行了基因筛选。在使用Avana库的正向和负向选择筛选中,预期结果(例如PanCancer基因,coreessentials和先前验证的靶标)被多个sgRNA评为强结果,并且与现有文库相比,该筛选产生了更多具有统计意义的基因,从而可以在这些表型分析中鉴定和确认新基因。规则集1对sgRNA活性的预测并不完美,但是,这为文库设计的进一步改进留下了机会。通过将sgRNA活性数据集的大小增加一倍并确定一种更有效的建模方法,我们开发了RuleSet2,与来自多个实验室的多个数据集相比,RuleSet1表现出明显的改进。值得注意的是,规则集2预测性能的能力扩展到CRISPRa和CRISPRi筛选。因此,基于规则集2的sgRNA设计(例如我们的Brunello和Brie库)应该在库性能方面带来实质性的额外改进。
决定libraryperformance的另一个主要因素是specificity。Joung及其同事将他们在实验中检测到的脱靶位点与两种常见的脱靶预测算法所发现的位点进行了比较,并指出“这两个程序都无法识别出GUIDE-seq发现的绝大多数脱靶位点。尽管规则集1和2代表了数据驱动的靶上sgRNA有效性的定量模型,但缺乏基于类似大规模数据的脱靶相互作用的定量分析,并且无法预测脱靶效应因此相当有限。我们对代表65个DNA靶标的所有单碱基错配和插入缺失的9,914个sgRNA变体进行的分析显示,活性效应的模式很复杂,并且通过检查较小数量的sgRNA-DNA相互作用不会完全显现。我们使用这些数据推导出CFD分数,以预测脱靶切割的可能性,并表明其表现优于其他脱靶得分指标。总之,这些结果为为人类和小鼠基因组创建更具活性和特异性的文库提供了指导。
当前的工作为设计用于大规模筛选和小规模基因编辑实验的改良sgRNA试剂提供了资源。由于筛查面临的最大挑战之一是为感兴趣的生物学方法确定忠实的模型,因此,确认发现的普遍性可能需要检查多种细胞模型。较小的具有较高活性和特异性sgRNA的文库,可通过更好的在靶和脱靶活性预测来进行,这将有助于在一系列模型系统中进行具有成本效益的筛选。直接将CRISPR基因敲除文库与其他基因消除方法(例如最新的RNA干扰(RNAi)和CRISPRi文库)的有效性进行比较,可能会揭示出不同的优势,因此对模型系统的完整评估将受益于多种形式的筛查。此外,未来的工作将确定使用化脓性链球菌Cas9获得的结果是否提供有关其他Cas9蛋白活性的有用课程。这里描述的实验和分析方法说明了一种方法,该方法可发现有助于sgRNA活性和特异性的因素,并针对大规模功能基因组学优化试剂设计。
为了设计这些文库,我们靶向由共识编码序列数据库(CCDS,ConsensusCodingSequenceDatabase)注释的蛋白质编码转录本,人类基因组共有18,675个基因,小鼠基因组共有20,077个基因。当一个基因具有多个CCDSID时,我们就选择每个基因最短的转录本。我们在正链和负链上注释了NGG前间隔物相邻基序(PAM),然后根据三个标准选择了要包含在文库中的sgRNA,并将这些标准分为多个层。最优选的sgRNA将满足所有这三个标准的第一层。但是,并非所有的sgRNA都具有这些特性,因此,要达到每个基因六个sgRNA的配额,就需要跨标准逐步逐步放松层级,并且每轮逐步放松的特性在附录中给出。表1。此外,我们排除了序列中具有BsmBI位点或具有四个或更多胸苷的序列的sgRNA。我们每个基因最多选择六个sgRNA,这导致110,257sgRNA的人文库(Avana)和120,453sgRNA的小鼠文库(Asiago)(补充表2和3)。提供了在选择纳入Avana和Asiago库的每一层中这些标准下sgRNA的最终分布。
标准A:目标位置在蛋白质编码序列中的位置,四级除以目标四分位数:(i)蛋白质编码区域的0–25%,(ii)25–50%,(iii)50–75%,(iv)75–100%。
下表列出了分别选择包含在Avana和Asiago库中的每一层的sgRNA的最终分布:
i;57%;57%ii;43%;43%iii;0.06%;0.04%iv;0.02%;0.01%准则B:tomitigateoff-targeteffects,例如从sgRNA的3’端开始算起的所有长度的靶向蛋白质编码基因的sgRNA,各种长度的序列唯一性,PAM近端(i)13个nt是唯一的,(ii)17个核苷酸是唯一的,(iii)20个核苷酸是唯一的,或(iv)sgRNA序列不是唯一的。
i;84%;83%ii;13%;13%iii;0.2%;0.4%iv;3%;4%标准C:规则集1的目标得分,以最大化基因敲除功效,分为十等分;例如,(i)分数为0.9-1.0,(ii)分数为0.8-0.9,依此类推。
以下列表分别列出了选择包含在每层Avana和Asiago库中的sgRNA的目标得分和最终分布:
i;0.9–1.0;3%;3%ii;0.8–0.9;14%;15%iii;0.7–0.8;22%;23%iv;0.6–0.7;23%;22%v;0.5–0.6;17%;16%vi;0.4–0.5;10%;10%vii;0.3–0.4;6%;6%viii;0.2–0.3;3%;3%ix;0–0.2;1%;1%4.2文库创建Librarycreation寡核苷酸是在BroadTechnology实验室(BTL)的B3合成仪(CustomArray)上合成的。对于每个sgRNA序列,将BsmBI识别位点与适当的突出序列(带下划线)附加在一起,以克隆到sgRNA表达质粒中。附加了额外的引物位点,以允许差异扩增同一合成库中的子集。因此,最终的寡核苷酸序列为:
5′-(正向引物)CGTCTCACACCG(sgRNA,20nt)GTTTCGAGACG(反向引物)。使用独特的引物组,使用25μl2xNEBnextPCRmastermix(NewEnglandBioLabs),2μl寡核苷酸池(40ng),5μl终浓度为0.5μM的引物混合物和18μl水扩增单个子池。PCR循环条件:30sat98°C,30sat53°C,30sat72°C,连续24个循环。
。。。
用于目标预测的数据处理。对于每个靶向给定基因的sgRNA,计算了对数的对数倍数变化(LFC,log2fold-chang),根据read次数判断。接下来,通过为每个基因分配sgRNA的序列,然后将它们重新缩放到0到1之间,从而获得每个基因中sgRNA的归一化等级。因此,给定sgRNA和基因的最终sgRNA得分为[0,1],其中1表示成功敲除。请注意,因为具有更多sgRNA的基因的LFC具有不同的最大值,所以使用归一化等级来代替原始LFC,这表明跨不同基因的LFC不可比。
预测模型。我们在实验中使用了以下统计模型:(i)线性回归,(ii)L1规范化线性回归,(iii)L2规范化线性回归,(iv)先前使用的混合SVM加逻辑回归方法,(v)随机森林,(vi)梯度提升的回归树,(vii)L1逻辑回归(分类器),(viii)SVM分类。这些在python中使用的scikit-learn软件包的实现。对于(ii)和(iii),我们将正则化参数范围设置为搜索在日志空间中均匀分布的100个点,最小为10–6,最大为1.5×105。梯度提升的回归树(学习率为0.1,每个深度估计数为100,最大深度为3)。对于SVM,除非另有说明,否则我们使用具有默认L2正则化的线性内核。
Featurization。核苷酸序列的““one-hot”编码是指采用单个类别变量并将其转换为更多的变量,每个变量的取值可以为0或1,其中最多为“hot,”oron。例如,30聚体目标位点加上背景的位置1可以承担A/C/T/G,并且它转换为四个二进制变量,每个可能的核苷酸一个。这些是“第1阶”功能。对于“第2阶”特征,我们将所有相邻的成对核苷酸视为特征,例如AA/AT/AG/etc。有4×4=16个这样的对,因此代表一个这样的对的单个变量被一热编码为16个二进制变量。以前,仅以这种方式使用“位置特异性”核苷酸特征,这意味着对于sgRNA上的每个位置,都使用了一个不同的单热编码特征。但是,在这里,从一些字符串内核文献中获得启发,我们还通过包括“位置无关”功能来扩充这些功能集,例如,对于1阶功能,这意味着一个具有多少A和sgRNA中有许多T等,而忽略了它们的位置,并且类似地出现在2阶(参考51)。因此,对于30聚体(20聚体sgRNA加上背景),我们获得了80个1阶和320阶2阶位置特异性特征,以及4个1阶和16阶2阶位无关特征。如前所述计算GC计数特征,即,计数20聚体中的G和C的数目,产生一个特征,然后还使用计数>10的另一特征。
相对于PAM“NGGN”在N和N位置的两个核苷酸是一键编码的,可产生16个特征,每个NN可能性一个特征(例如AT)。
使用BiopythonTm_staluc函数根据RNA指导序列的DNA版本或其部分的解链温度计算热力学特征。除了使用整个30-mer靶位点的解链温度和背景,我们还将热力学特征分为三个其他特征,分别对应于sgRNA的三个不同部分的解链温度,特别是五个核苷酸在靠近PAM的位置,与之相邻的8个核苷酸(远离PAM),然后依次与5个聚体的8个核苷酸相邻(又远离PAM)。
并非所有功能都会出现在补充表17中,因为从所有计算中都删除了完全没有变化的功能。
分层/交叉验证(Stratification/cross-validation)。除非另有说明,否则交叉验证始终是通过一次遗漏一个基因的所有sgRNA来进行的。对于用于设置L1/L2正则化权重的所需嵌套交叉验证中的内部交叉验证,我们还使用了留一基因外交叉验证。在检查特征重要性时,我们对基因之间的基尼重要性(针对梯度增强回归树)或权重(针对L1正规回归)求平均值。
如果sgRNA与DNA之间的相互作用在第6位具有单个rG-dA错配,则该相互作用得分为0.67。如果存在两个或多个不匹配,则将各个不匹配值相乘。例如,位置7处的rG-dA不匹配加上位置10处的rC-dT不匹配,其CFD得分为0.57×0.87=0.50。
GUIDE-seq所标识的位点可在该出版物中作为补充表使用。对于用GUIDE-seq分析的十个sgRNA,Cas-OFFinder被用于寻找在人类基因组中具有多达六个错配的所有脱靶位点。为了在脱靶评分算法之间进行最公平的比较,我们仅按照CCtop和Hsu等算法的要求,使用NRGPAM对脱靶位点进行了评分,这意味着要排除38个位点。
我们注释了针对每个转录本的所有可能的sgRNA,为其“规则集2”评分,并使用这些评分对每个转录本进行sgRNA的靶向活性排名。在此实现中,我们使用了不包含蛋白质靶位点信息的规则集2版本,因为该标准稍后将在选择sgRNA时使用。
同样,我们通过CFD评分各层中潜在的脱靶位点的数量对每个sgRNA进行注释:(i)1.0;(ii)0.2-1.0;(iii)0.05-0.2;(iv)<0.05。然后,我们将每个转录物按(i)层中脱靶位点最少的顺序对每个sgRNA进行排名,并使用其他层作为决胜局。为了打破层次关系,我们对sgRNA进行了优先排序,使其在蛋白质编码区域的脱靶位点最少。然后以相等的权重组合每个sgRNA的靶上和脱靶等级,从而为靶向特定转录本的每个sgRNA提供最终等级。
为了为每个转录本选择sgRNA,我们首先选择了排名最高的sgRNA,其靶向目标基因的蛋白质编码区域的5–65%。然后,我们从每个转录本中选择了其他sgRNA,从蛋白质编码的角度出发,要求下一个选择的sgRNA靶向的位置与先前选择的sgRNA至少相距5%。这样可以确保目标空间的多样性,这特别有用,因为参考转录本中存在的外显子可能不包含在应用该文库的任何特定细胞模型中。使用这种启发式方法,我们每个基因最多选择4个sgRNA。为了满足某些基因的配额,我们消除了5–65%的蛋白质编码区域和5%的间隔标准。