CRISPRScreen基因编辑筛选靶点MAGeCKMAGeCKFluteLife·Intelligence

TwistTier4:1001-2000Oligos除去10%的NTC,实际上的容量是300个基因(包括两个reporter)

打折前:1,645.00USD

打折后:1,325.00USD

2024年09月17日

正式开始smallfocuslibraryscreen

LibraryMode

240genes6gRNApergene160NTC(240*6*10/9*10%)Half#No-SiteControls+half#IntergenicControls

addreportergRNAafterCRIPSRpick(hereismKate2)

checkall6mKate2gRNAintwoplasmids

getresultsfromCRISPRpickandcopygenenameandgRNAtothenewExcelfile

addgRNAforreporter

gototwisttomaketheorder

参考:/Users/zhixinli/PartnersHealthCareDropbox/ZhixinLi/LI-LAB-v0/MES-lab/CRISPRscreen

2024年09月06日

准备做一个focusedlibraryCRISPRscreen做一个强有力的验证。

ordertheoligosfromTwistCompany

2024年08月27日

后来在回家的路上我才慢慢意识到,samplesize的重要性,这个已经是genome-wide的screen了,与GWAS异曲同工,GWAS是population的数据,缺点是sample的异质性太强,所以需要很大的samplesize才能找到显著的hit。

回到CRISPRscreen,有时我们只有1vs1的样本数,最多的时候就是3vs3,虽然样本本身没有异质性,但CRISPR这套系统的异质性也很强,Cas9是否表达,侵染了到底几个gRNA?细胞间是否存在相互作用?测序深度是否足够?

所有这些不确定因素导致CRISPRscreen的结果非常dirty,SOX9和KRT20本身因为是直接的Target,所以富集也毫无意外,其他的间接的则没有那么明显。

所以,我的结论:目前该lab对CRISPRscreen的理解和掌控其实是在非常肤浅的程度,数据基本无法利用。

如果是我,我会首先无脑加大样本量,去掉所有复杂的设计(这套系统准确度根本就不高),直接来个20-50组mKateHigh和Low的两组,这样我才敢说有足够的power来产生足够可信的hit。

实验方向的优化也是可以的,只是更加的费时费力,需要精通实验的experts。

这个lab其实非常菜,大部分时候仅仅停留在能懂的层次,偶尔进入会做的层次,但远远没达到精通的地步,这就导致太理论化、理想化,复杂fancy的设计,出来的全是一堆狗屁不同的结果。

举几个例子:

2024年08月22日

这次算是彻底把CRISPRScreen的原理和数据搞清楚了,但也开始意识到数据的局限性,以及实验设计的重要性。

核心就是让Cas9在cellline/organoid里表达,然后把sgRNA库导入进细胞,一般是处理3-7天,然后收集特定的细胞(可以直接是viabilityorflowsorting),靶向扩增sgRNA,测序分析。

目前主要有两种readout:

建库时,一般为了省钱,都会pool在一起,然后拆分fastq。

然后用MAGeCKcount来生成每个sgRNA的readcount的table。

最后就是MAGeCK的rra或者mle来分析数据,处理的数据就是每个基因多个sgRNA,会综合考虑然后生成一个log2FC,然后生成Rank。

深度理解CRISPRScreen数据

在看原始数据的时候有很多tricky的地方,这个非常类似RNA-seq数据,连normalization都可以用CPM,不同的是一个gene有多个sgRNA。

稍微有点复杂的就是:

彻底搞懂之后,我发现CRISPRScreen很容易非常差,一些条件必须满足,否咋数据可信度很差:

有的分析取rank(P-value),有的取beta,有的就用log2FC。

我个人是觉得可信度不大,一个常识就是只有样本量足够大,RNA-seq的DEGP-value才有power。

这里的结果就只有一个样本,单样本DEG,你信吗?然后sgRNA数量多,数据参差不齐,出来的结果有个鬼的可信度。

有个做了3个replicate,还算比较合理。

关于SOX9和KRT20dualreporter

SOX9-》KRT20这个regulation本身是存在的,所以筛KRT20本身也会筛SOX9,反之则不成立。

数据分析参考:projects/SOX9_KRT20_CRISPR_Screen/whole_genome_CRISPR_screen.ipynb

分析工具:

Paper参考:

可视化:

工具篇:MAGeCKFlute-IntegrativeanalysispipelineforpooledCRISPRfunctionalgeneticscreens

安装折腾了几个小时,debug核心,根据关键提示Google,筛选找到答案即可。

error:

Error:packageornamespaceloadfailedfor‘depmap’:.onLoadfailedinloadNamespace()for'depmap',details:call:(function(cond)error:errorinevaluatingtheargument'x'inselectingamethodforfunction'query':Failedtocollectlazytable.Causedbyerrorin`db_collect()`:!Argumentsin`...`mustbeused.Problematicargument:..1=InfDidyoumisspellanargumentnameError:loadingfailedExecutionhaltedERROR:loadingfailedSolved:downgradingdbplyrsolvesthisissue

devtools::install_version("dbplyr",version="2.3.4")

系统性的学习一下CRISPRscreen的数据分析

这次比较麻烦,需要从Undetermined的fastq开始,问题就是index是RC,当时没有考虑到。

自己做有点麻烦,如果直接用最短的index,会出现很多假阳性,所以必须extend。

index在read的header里,因为是dualindex,所以需要准备indexfastq,然后用工具提取即可,一晚上能搞完80G+80G的pairedfastqs。

fastq非常dirty,需要先trim一下,fastp一下,80G只剩下65G。【完全可以不做】下面的方法花里胡哨,其实没啥用。

Findatarfileintheabovelocation.Ithas12samplesfromHEK293Tandanexcelwithsampleinformation.

Itrimmedthereadsusingfastptoremoveadapters,poly-Gtailsandlow-qualitybases.IusedPEARtomergematepairstomakeasinglereadbasedondefaultoverlapparameters.

Thefastq.gzfilesyouhavenow,treatthemassingleendreadfiles.Ibelieveyouhavetheinzoliaguidefileforannotation,IsharedthesimplecsvforMAGECXinthesamefolder.WillkeepHT29datainthesamefolderonceIamdonepreprocessingit.

【可以略过,没必要做merge,知道有这么个工具就行】

其次就是merge,因为测序长度可能超过了insertsize,所以需要寻找overlap,然后merge,这个PEAR可以做。【bbmerge.sh也能做,但比较旧】

R1---------------------------><-------------------------R2

但PEAR会剩下很多unassembled的reads,这时候就用BBtools合并一下,reformat.sh,就是粗暴的拼接。【reformat就是简单的cat,并不是RC后paste】

reformat.shin1=sample_R1.fq.gzin2=sample_R2.fq.gzout=sample.fq.gz

所以强制改了PEAR的参数,使用所有的reads,这样就不会有unassembled的reads了。

pear-n0-e-p1.0-v0-j20-fmerged.fq.unassembled.forward.fastq-rmerged.fq.unassembled.reverse.fastq-ounassembled

搞完之后,就可以跑MAGeCK的pipeline了。

condacreate-cbioconda-ncrispr_screenmageckcondaactivatecrispr_screencondaupdatemageck

可以直接用pairedfastq

mageckcount-llibrary.txt-nprefix--sample-labelA,B,C,D--fastqA_1.fq.gzB_1.fq.gzC_1.fq.gzD_1.fq.gz--fastq-2A_2.fq.gzB_2.fq.gzC_2.fq.gzD_2.fq.gz

首先要准备cas12_library_all.csv文件

这次的cas12lib比较特殊,是四个20bp的sgRNA被拼接成了一个sgRNA,我试了用bowtie2和hisat2去比对到全长sgRNA,基本是0比对。

condainstallbioinfo::hisatcondainstallbioconda::hisat2hisat2-build../library_ref.fastagRNA_refhisat2-p15-t--very-sensitive\-x/home/zz950/projects/demultiplexing/demultiplexed/sgRNA_ref/gRNA_ref\-1fastq/D7_1uM_1_1.fq\-2fastq/D7_1uM_1_2.fq\-SD7_1uM_1.sam2>D7_1uM_1.GenomeMapStat.xlsbowtie2-build../bowtie2_ref.fastagRNA_refbowtie2-x/home/zz950/projects/demultiplexing/demultiplexed/sgRNA_ref_bowtie2/gRNA_ref-1fastq/D7_1uM_1_1.fq-2fastq/D7_1uM_1_2.fq-p15-SD7_1uM_1.sam

所以不得不拆分成四个sgRNA,然后继续用mageck来分析

mageck说是可以用fastq2,其实基本所有的信息都在fastq1里面,用了pairedfastq反而会报错。

我们的样本

D7_1uM_1D7_1uM_2D7_DMSO_1D7_DMSO_2D2_DMSO_1D2_DMSO_2D2_0.1uM_1D2_0.1uM_2Plasmid

一行命令搞定:

mageckcount-l../cas12_library_all.csv-nresults/all.cas12--sample-labelD7_1uM_1,D7_1uM_2,D7_DMSO_1,D7_DMSO_2,D2_DMSO_1,D2_DMSO_2,D2_0.1uM_1,D2_0.1uM_2,Plasmid--fastqD7_1uM_1_1.fqD7_1uM_2_1.fqD7_DMSO_1_1.fqD7_DMSO_2_1.fqD2_DMSO_1_1.fqD2_DMSO_2_1.fqD2_0.1uM_1_1.fqD2_0.1uM_2_1.fqPlasmid_1.fq#用了会报错--fastq-2D7_1uM_1_2.fqD7_1uM_2_2.fqD7_DMSO_1_2.fqD7_DMSO_2_2.fqD2_DMSO_1_2.fqD2_DMSO_2_2.fqD2_0.1uM_1_2.fqD2_0.1uM_2_2.fqPlasmid_2.fq

对每个样本单独做也行

mageckcount-l../cas12_library_all.csv-nresults/D7_1uM_1--sample-labelD7_1uM_1--fastqD7_1uM_1_1.fqmageckcount-l../cas12_library_all.csv-nresults/D7_1uM_2--sample-labelD7_1uM_2--fastqD7_1uM_2_1.fq--fastq-2D7_1uM_2_2.fqmageckcount-l../cas12_library_all.csv-nresults/D7_DMSO_1--sample-labelD7_DMSO_1--fastqD7_DMSO_1_1.fq--fastq-2D7_DMSO_1_2.fqmageckcount-l../cas12_library_all.csv-nresults/D7_DMSO_2--sample-labelD7_DMSO_2--fastqD7_DMSO_2_1.fqmageckcount-l../cas12_library_all.csv-nresults/D2_DMSO_1--sample-labelD2_DMSO_1--fastqD2_DMSO_1_1.fq--fastq-2D2_DMSO_1_2.fqmageckcount-l../cas12_library_all.csv-nresults/D2_DMSO_2--sample-labelD2_DMSO_2--fastqD2_DMSO_2_1.fqmageckcount-l../cas12_library_all.csv-nresults/D2_0.1uM_1--sample-labelD2_0.1uM_1--fastqD2_0.1uM_1_1.fqmageckcount-l../cas12_library_all.csv-nresults/D2_0.1uM_2--sample-labelD2_0.1uM_2--fastqD2_0.1uM_2_1.fqmageckcount-l../cas12_library_all.csv-nresults/Plasmid--sample-labelPlasmid--fastqPlasmid_1.fq--fastq-2Plasmid_2.fq

OK,得到countmatrix了,可以做下游分析了。

讨论之后,发现必须要用top2gRNA作为construct,来计数。count也没有减少多少。

mageckcount-l../cas12_library_top2.csv-nresults/all.top2.cas12--sample-labelD7_1uM_1,D7_1uM_2,D7_DMSO_1,D7_DMSO_2,D2_DMSO_1,D2_DMSO_2,D2_0.1uM_1,D2_0.1uM_2,Plasmid--fastqD7_1uM_1_1.fqD7_1uM_2_1.fqD7_DMSO_1_1.fqD7_DMSO_2_1.fqD2_DMSO_1_1.fqD2_DMSO_2_1.fqD2_0.1uM_1_1.fqD2_0.1uM_2_1.fqPlasmid_1.fq

magecktest-kall.top2.cas12.count.merge.txt-tD7_1uM-cD7_DMSO-nD7_compmagecktest-kall.top2.cas12.count.merge.txt-tD2_0.1uM-cD2_DMSO-nD2_comp

但因为我们的plasmid数据不行,暂时就不对比了。

下游分析代码:projects/demultiplexing/demultiplexed/cas12_SOX9_dTAG_CRISPR_screen.ipynb

从novogene得到了新的demultiplexing数据,对比了一下,数据量差不多,但是还是以他们为金标准,重新分析一遍吧,也挺快的。

mageckcount-l../../cas12_library_top2.csv-nresults/all.2gRNA.cas12--sample-labelD7_1uM_1,D7_1uM_2,D7_DMSO_1,D7_DMSO_2,D2_DMSO_1,D2_DMSO_2,D2_0.1uM_1,D2_0.1uM_2--fastqD7_1uM_R1_1.fqD7_1uM_R2_1.fqD7_DMSO_R1_1.fqD7_DMSO_R2_1.fqD2_DMSO_R1_1.fqD2_DMSO_R2_1.fqD2_100nM_R1_1.fqD2_100nM_R2_1.fq#--fastq-2D7_1uM_R1_2.fqD7_1uM_R2_2.fqD7_DMSO_R1_2.fqD7_DMSO_R2_2.fqD2_DMSO_R1_2.fqD2_DMSO_R2_2.fqD2_100nM_R1_2.fqD2_100nM_R2_2.fqmagecktest-kall.2gRNA.cas12.count.merge.txt-tD7_1uM-cD7_DMSO-nD7_compmagecktest-kall.2gRNA.cas12.count.merge.txt-tD2_0.1uM-cD2_DMSO-nD2_comp

mageckcount-l../../cas12_library_top2.csv-nresults/all.2gRNA.cas12--sample-labelD7_1uM_1,D7_1uM_2,D7_DMSO_1,D7_DMSO_2,D2_DMSO_1,D2_DMSO_2,D2_0.1uM_1,D2_0.1uM_2,Plasmid--fastqD7_1uM_R1_1.fqD7_1uM_R2_1.fqD7_DMSO_R1_1.fqD7_DMSO_R2_1.fqD2_DMSO_R1_1.fqD2_DMSO_R2_1.fqD2_100nM_R1_1.fqD2_100nM_R2_1.fqInzolia_Plasmid_1.fq#--fastq-2D7_1uM_R1_2.fqD7_1uM_R2_2.fqD7_DMSO_R1_2.fqD7_DMSO_R2_2.fqD2_DMSO_R1_2.fqD2_DMSO_R2_2.fqD2_100nM_R1_2.fqD2_100nM_R2_2.fq

CRISRP共同量测序分为阳性筛选和阴性筛选。

阳性筛选指施加一定的筛选压力,经文库扰动后野生型细胞致死,仅有获得抗性的细胞存活。

MAGeCKisdesignedtoidentifypositivelyandnegativelyselectedsgRNAsandgenesingenome-scaleCRISPR/Cas9knockoutexperiments.

Genesarerankedbythep.negfield(bydefault).

结果解读

Outputfilespecification

两种不同的compare方法

magecktest-kall.2gRNA.cas12.count.merge.txt-tD7_1uM-cD7_DMSO-nD7_compmagecktest-kall.2gRNA.cas12.count.merge.txt-tD2_0.1uM-cD2_DMSO-nD2_compmageckmle-kall.2gRNA.cas12.count.merge.txt-dD2_designmatrix.txt-nD2_mle_compmageckmle-kall.2gRNA.cas12.count.merge.txt-dD7_designmatrix.txt-nD7_mle_comp

第一种rra就是肯定有两种结果,一是positive,一是negative;

第二种就是mle,只有一个beta,出来的火山图比较奇怪,可以对比一下;

THE END
1.转化医学网【Nature子刊】大连医科大学顾春东教授团队:肺癌肿瘤干细胞精准治疗潜在靶点 2024-12-21 15:22 【Cell】肿瘤抑制基因新发现:KEAP1合性成为肺癌预测的关键生物标志物 2024-12-21 15:21 【Nature子刊】复旦大学附属浦东医院王晓亮团队重磅发现:SLC50A1成肝癌新克星 https://www.163.com/dy/media/T1608556126673.html
2.GeneticsNatureCancer genetics Cancer genomics Clinical genetics Consanguinity CRISPR-Cas systems Cytogenetics Development Epigenetics Epigenomics Eukaryote Evolutionary biology Functional genomics Gene expression Gene regulation Genetic association study Genetic hybridization Genetic interaction Genetic linkagehttps://www.nature.com/subjects/genetics/nature
3.SiLCYB调控番茄红素等谷子类胡萝卜素合成代谢的功能及应用68.1.2、silcyb基因编辑靶点设计 69.根据谷子silcyb基因组序列,通过在线靶点预测网站(http://crispor.tefor.net/)生成靶点列表,最终选定序列表中序列2第843bp到862bp之间20bp序 列,即5 ′? gcccacaaggatcttcctcg ?3′ 为靶标序列。 70.实施例2、pylcrispr/cas9pubi http://mip.xjishu.com/zhuanli/27/202111177080.html
4.E.coli.CRISPRCas9基因编辑试剂盒(单靶点)(21页)E.coli.CRISPRCas9基因编辑试剂盒(单靶点).PDF,Cat. No.: CR3010-S E.coli. CRISPR/Cas9 基因编辑试剂盒 (单靶点) 产品简介: 本试剂盒采用 CRISPR/Cas9 系统对大肠杆菌基因组进行编辑。可以实现对基因的敲除、 敲入、点突变等。也可以同时对基因组的多个位点进行编辑。https://max.book118.com/html/2019/1125/7103131024002104.shtm
5.sgRNAs&基因编辑sgrna设计网站目前,CRISPR-Cas9基因编辑技术在疾病基础研究、靶点验证、药物分子的高通量筛选、以及遗传性疾病的治疗等领域得到越来越广泛的应用。sgRNA在CRISPR-Cas9基因编辑系统中具有准确识别靶基因序列的作用,其效果可影响编辑的效率、是否发生脱靶等,甚至对最终基因编辑的效果产生决定性作用。因此,设计合理有效的sgRNA是实现基因编辑https://blog.csdn.net/geekfocus/article/details/128613082
6.CRISPR/Cas9基因敲入试验步骤(二)sgRNA的设计及退火因此,我强烈推荐基于重组整合方法设计的CRISPR载体,使用难度低,可靠性强,而且成本上也不会增加。其实验步骤分三步:1、使用XbaI、EcoI等其他稳定可靠的内切酶酶切载体,回收载体;2、使用PCR将靶点做到特定片段上,回收片段;3,重组整合反应,转化即可。 2017-01-29· IP浙江 回复 lixwei20121 请问: BbsI 是不是用于https://3g.dxy.cn/bbs/topic/38427515
7.CRISPR/Cas9技术在非模式植物中的应用进展但与模式植物和一些大作物相比,CRISPR/Cas9基因编辑技术在非模式植物,尤其在一些小作物的应用中存在如载体构建、靶点设计、脱靶检测、同源重组等问题有待进一步完善。该文对CRISPR/Cas9技术在非模式植物与小作物研究的最新研究进展进行了总结,讨论了该技术目前在非模式植物、小作物应用的局限性,在此基础上提出了相关改进https://www.fx361.com/page/2019/0910/9972311.shtml
8.5个小技巧助您设计CRISPR介导HDR供体DNA企业动态导语:优化实验条件和设计供体 DNA 模板(Donor template)是获得高同源重组修复率的关键。本文将为大家介绍为什么单链供体模板(Single-stranded donor oligonucleotides, ssODN )在 CRISPR 介导的同源重组(Homology directed repair, HDR)表现更优,以及如何设计最佳的 HDR 模板。 https://m.biomart.cn/news/16/2906556.htm
9.iStop基因敲除技术服务稳定细胞系构建大肠杆菌基因编辑服务内容:设计并构建3-5个靶点表达载体,与CRISPRCBE载体一起瞬转HEK293V细胞。基因组PCR测序验证靶点基因敲除效率。提供至少一个有效靶点及有效靶点的sgRNA表达载体。 服务标准: 1、载体测序结果与设计一致。 2、基因组PCR测序结果确定靶点有效。服务适用:本服务适用于尚未设计基因敲除靶点,且有丰富的细胞培养转染、https://www.inovogen.com/geneknockout/CRISPR-Cas9/istop/
10.刘佳课题组构建针对膜蛋白sgRNA设计的CRISPR网站CRISPR近日,上海科技大学免疫化学研究所、生命科学与技术学院刘佳课题组与免疫化学研究所生物医学大数据平台合作,通过升级sgRNA设计的算法,针对已被质谱鉴定的细胞表面蛋白基因设计sgRNA得到膜蛋白组sgRNA文库(CRISPR-Surfaceome),创建了网上数据库CRISPR-Surfaceome(https://crispr-surfaceome.siais.shanghaitech.edu.cn/home)。https://siais.shanghaitech.edu.cn/2022/0815/c5404a767972/page.htm
11.CRISPRCAS蛋白的gRNA序列的设计流程8. 根据网站设计不同的gRNA,选取合适和评分最高的gRNA即可出。 9. 最后在设计好的gRNA序列的5'端点引入酶切位点,合成单链的正反向序列,酶切链接到建好表达载体上, 载体有相同酶切位点。 相关阅读 逆转录PCR/RT-PCR的原理、实验步骤和参数设置 Magigen CRISPR Cas12蛋白家族? https://www.magigen.com/cn/h-nd-674.html
12.(1)引物设计:利用在线网站Design CRISPR guides with off-target and efficiency predictions, for more than 100 genomes.http://crispor.tefor.net/
13.CRISPR/Cas9载体设计与构建的作用机理CRISPR/Cas9 载体设计与构建方法1:利用试剂盒快速方便地将gRNA 靶点序列插入到Cas9/gRNA 质粒中。构建好的Cas9/gRNA质粒能够同时表达植物密码子优化的Cas9 蛋白及gRNA,应用CRISPR 技术进行目标基因的敲除和编辑。 CRISPR/Cas9 载体设计与构建方法2:根据NtDXR 基因序列,利用在线工具ZiFiT Targeter Version4.2:选择合适的https://www.chemicalbook.com/NewsInfo_5909.htm
14.世界首个完全由AI设计的CRISPR基因编辑器来了CRISPR基因编辑是公认的21世纪以来最受关注、最具突破性的生命科学突破,自2012年正式诞生后,短短8年后就获得了诺贝尔奖的认可,去年年底,首款基于CRISPR的基因编辑疗法获得FDA批准上市,用于治疗镰状细胞病和β-地中海贫血,从而开启了遗传疾病治疗的新篇章。 https://m.thepaper.cn/newsDetail_forward_27159623
15.使用指南粒曼CRISPREasyKO试剂盒(RNP法)收藏1.我之前没有做过基因敲除,目前在学习CRISPR/Cas9技术和原理,从头设计gRNA(学习软件/网站),自己构建载体、包装病毒、转染细胞和筛选单克隆和KO纯合子,涉及的技术流程比较复杂,感觉至少需要半年的学习,还不一定能"一次性"成功获得该实验材料(这一步才是刚刚拿到课题的实验材料),费时、费力、费钱; http://www.elem-bio.cn/news_details/28.html
16.基因编辑ThermoFisherScientific完整的 CRISPR 和 TALEN 基因编辑工具包 我们开发了一套完整的基因编辑工具以帮助研究人员探寻和理解基因组如何影响表型,其中包括针对基因编辑工作流程中每个步骤的值得信赖的解决方案。设计用于精确切割、敲入和标记的 CRISPR-Cas9 系统或 TALEN 构建体,将其有效转染到细胞中,并验证基因型和表型结果。我们的已优化并经https://www.thermofisher.cn/cn/zh/home/life-science/genome-editing.html
17.医微客因此整理了生物医学、化学、新药研发等常用数据库及网站向大家分享,主要分为以下8大类,欢迎交流补充! 文献检索网站 基因组、蛋白质组数据库 蛋白序列、基因序列、CRISPR工具网站 生信分析工具网站 NovoPro(集大成的在线工具) 化学小分子药物数据库 专利下载数据库 https://www.ewitkey.cn/vipshuo/show-19917.html
18.随机突变文库构建与筛选研究进展在此基础上,Jako?iūnas等扩展了现有的CRISPR技术,采用易错PCR和Cas9介导的基因组整合方法,将大型供体突变体文库整合到单个或多个基因组位点,成功率达到98%–99%[35]。该方法称为CasPER,是Cas9介导蛋白质进化反应的简称。 CasPER包括以下主要步骤(图5):首先,选择合适的DNA突变片段。其次,在目标靶点设计gRNA。http://journals.im.ac.cn/html/cjbcn/2021/1/gc21010163.htm