CRISPR/Cas9已经成为最常用的基因编辑系统。CRISPR/Cas9包括2部分:Cas9核酸内切酶和sgRNA(singleguideRNA),sgRNA由天然的tracrRNA(transactivatingcrRNA)和crRNA(CRISPRRNA)融合而来。
使用CRISPR/Cas9工具进行基因敲除等基因编辑时,首先要进行sgRNA设计。理论上只要根据PAM序列(SpCas9识别的最佳PAM是5-NGG-3)对所需靶向的物种基因组进行扫描,即可设计所有可能的sgRNA。但如何设计合理有效的sgRNA则需要谨慎考虑,因为这将决定其基因编辑结果。
图1CRISPR/Cas9系统[2]
随着近年来研究的不断深入,研究者对CRISPR/Cas9系统机制已有非常全面的了解。这些研究结果也促进了大量的sgRNA设计工具的出现[1,3],从而给研究者提供了快速、高效的sgRNA设计选择。
sgRNA的5’包括20nt的protospacer序列,该序列和靶向DNA序列互补以实现双链切割;其3’则为固定的一段具有茎环(stem-loop)结构的支架序列(scaffoldsequence),该序列和Cas9蛋白带正电的凹槽相互作用形成核糖核蛋白复合物(ribonucleoproteincomplex,RNP)。一般sgRNA序列大多指20nt的protospacer序列。
大部分的sgRNA设计工具,除展示设计序列外,主要包括效率和特异性评价,并给出参考评价分值。而不同工具所基于的数据和算法,导致给出特异性和效率结果可能不同。由于sgRNA特异性主要取决于是否存在潜在的错配序列,不同工具间结果一致性往往较高;但是对于效率预测,目前并没有非常成熟的预测工具,研究者使用时需要谨慎参考。
在工具设计页面上,不同的工具偏重点不同。很多工具提供不同的物种基因组序列,可使用基因ID直接获得sgRNA;或者通过输入候选序列进行sgRNA设计。并且大都能提供多种CRISPR/Cas系统以供设计。
下面简单介绍几种sgRNA设计工具:
BroadInstituteGPP
较早出现的sgRNA在线设计工具,主要基于Doench等人2篇非常全面深入的sgRNA设计优化研究[4,5],以提供最高效率和最小脱靶可能的sgRNA设计。
该工具可应用于CRISPRko,CRISPRa(CRISPRactivation)和CRISPRi(CRISPRinterference)的sgRNA设计。提供包括SpCas9、SaCas9、AsCas9和enAsCas9四种CRISPR工具,以及human、mouse和rat三种物种基因组设计选择。该工具可以通过序列直接输入、基因ID和序列文件导入进行设计。大部分在线工具同时能提供在线展示和下载。但该工具设计结果需要下载,不提供在线的结果展示。
crispr.mit.edu(R.I.P)
曾经最为广泛使用的sgRNA设计工具(已于2017关闭)。提供WT和nickases两种Cas9的sgRNA设计。其优点是通过算法预测,对设计的sgRNA给出高、中、低三个可用等级便于使用者快速选择。其页面设计能快速浏览sgRNA的潜在脱靶位点,非常受研究者喜爱。
一个致命问题是该工具过滤了重复序列区域(repeatregion),这样如果你的sgRNA序列在基因组上存在多个重复,该工具并不能提醒。
Deskgen
随着CRISPR/Cas9的服务提供商的兴起,一些企业推出的sgRNA设计工具也非常具备使用性,并且这些工具往往贴合基因编辑设计,提供体验良好的可视化页面(比如:synthego,IDT,deskgen)。
其中DESKGENAI是通过人工智能算法的设计工具,属于较为主流的CRISPR基因组编辑设计商业工具。
CRISPRfinder
最大的特点和优势是可通过ensembl数据库的基因页面上显示sgRNA位置,提供基因组标注sgRNA浏览。便于快速的选定基因组的sgRNA序列。使用filter可快速选择不同等级的sgRNA显示。
crisprgold
该工具独特的提出一个关于sgRNA活性的见解[9,10],如果protospacer和scaffold序列存在一定的互补,则会产生bindingenergy,则可能影响正常的sgRNA二级结构,从而影响对靶序列的识别和结合,该工具将这一因素考虑在内,进而可以提供活性更高的sgRNA设计。。
DeepHF
通过测试人全基因组8万多个sgRNA的细胞系水平活性效率[6],在此数据基础上利用深度学习的方法建立了sgRNA效率的预测模型。与已有的模型相比,具有更准确的预测效果。
inDelphi和FORECasT
以往认为,CRISPR/Cas9在无模板的情况下,通过NHEJ产生的修复结果是随机的indel。但近年多篇研究发现,同一靶点的sgRNA序列存在比较一致的修复结果(indel),更进一步的发现,一部分的sgRNA的修复结果(theoutcomeofCRISPR-mediatedediting)是可以预测的[7,8]。inDelphi和FORECasT是最近出现的sgRNA无模板编辑预测工具,这对研究者准确设计和使用sgRNA,以得到预期基因编辑目的提供的进一步帮助。
当前众多的sgRNA设计工具几乎都是通过大规模的实验数据集和系统分析,建立相应的模型或算法。随着更多CRISPR/Cas9数据集的出现,以及结合人工智能和深度学习算法,后续有望出现更多大数据集合、算法优化的设计工具。
参考文献
[1]Cui,Yingbo,etal.ReviewofCRISPR/Cas9sgRNADesignTools.InterdisciplinarySciences:ComputationalLifeSciences10.2(2018):455-465.
[2]Graham,DanielB.,andDavidE.Root.ResourcesforthedesignofCRISPRgeneeditingexperiments.GenomeBiology16.1(2015):260-260.
[3]Lee,CiaranM.,TimothyH.Davis,andGangBao.ExaminationofCRISPR/Cas9designtoolsandtheeffectoftargetsiteaccessibilityonCas9activity.ExperimentalPhysiology103.4(2017):456-460.
[4]Doench,JohnG.,etal.OptimizedsgRNAdesigntomaximizeactivityandminimizeoff-targeteffectsofCRISPR-Cas9.NatureBiotechnology34.2(2016):184-191.
[5]Sanson,KendallR.,etal.OptimizedlibrariesforCRISPR-Cas9geneticscreenswithmultiplemodalities.NatureCommunications9.1(2018).
[6]Wang,Daqi,etal.OptimizedCRISPRguideRNAdesignfortwohigh-fidelityCas9variantsbydeeplearning.NatureCommunications10.1(2019):1-14.
[7]Shen,MaxW.,etal.Predictableandprecisetemplate-freeCRISPReditingofpathogenicvariants..Nature563.7733(2018):646-651.
[8]Chakrabarti,AnobM.,etal.Target-SpecificPrecisionofCRISPR-MediatedGenomeEditing.MolecularCell73.4(2019).
[9]Chu,VanTrung,etal.EfficientCRISPR-mediatedmutagenesisinprimaryimmunecellsusingCrispRGoldandaC57BL/6Cas9transgenicmouseline.ProceedingsoftheNationalAcademyofSciencesoftheUnitedStatesofAmerica113.44(2016):12514-12519.
[10]Graf,Robin,etal.sgRNASequenceMotifsBlockingEfficientCRISPR/Cas9-MediatedGeneEditing.CellReports26.5(2019).