易基因独家分享:m6Apeak鉴定经典软件exomPeak原理解析

exomePeak是目前主流的MeRIP-seq(m6A-seq)分析工具。最初版本是由孟佳课题组基于MATLAB语言编写的,之后的新版本采用R语言编写,使得这款软件应用更加简便。该工具主要用于组内Peak鉴定、组间差异Peak分析,以揭示RNA甲基组转录后调控的动态。exomePeak支持多个生物学重复、内部自动去除PCR重复和多重比对序列,peak鉴定基于外显子的连接位点(RNA甲基化位点),而非全基因组进行考虑,增强了peak鉴定的准确性,使得该工相比MACs等工具更适合用于m6A-seq数据分析。

exomePeak软件的核心算法

核心peak检测的算法是基于Przyborowski和Wilenski的两个Poisson分布均值比较的方法(C检验)。更具体地说,我们假设落在基因外显子窗口w=[w1,w2]上的测序reads数量服从Poisson分布:

Tips:泊松分布:当一个小的概率固定(λ)的独立重复实验,重复次数很大(n)的时候,成功的概率趋近于固定值nλ,成功的次数满足泊松分布。

在这里,测一条read落在基因组上的哪个区域可以看做一个随机事件(虽然实际上并不随机),正好落在窗口w内的概率很小并且是固定的。当测序reads数很大的时候,落在区间内的概率是固定的。那么落在窗口w上的reads数量就该满足泊松分布。

其中,X1,w和X0,w是IP样本和Input对照样本比对到窗口w=[w1,w2]内的reads数量,n1和n0是各个样本的reads总数(或测序深度),参数λ1,w和λ0,w分别表示IP和Input样本测序reads落入窗口w的概率。接着,我们来检验一下这些假设:

其中c>1是可由用户指定的IP/Input倍数变化阈值。在给定X1,w+X0,w=k的条件下,X1,w的条件分布遵循一个在k次随机试验中成功概率为p的二项分布,概率p定义为:

其中c=λ1,w/λ0,w。当p值小于用户定义的显著性水平α时,该条件检验(C-test)拒绝H0假设

当n1和n0是总reads数时,得到的p值反映了窗口w相对于整个转录组reads的富集倍数(IPvsInput)的显著性。或者,如果n1和n0被设置成是在特定基因外显子区域内的总reads数,则相应的p值将代表窗口w相对于特定基因的富集倍数的显著性。然后用Fisher或Stouffer的方法将两个p值结合起来,以确定转录组范围或基因特异性富集倍数的意义。

1、exomePeak软件考虑的关键问题和相应设计

exomePeak是一个用于检测MeRIP-seq数据中转录后RNA修饰位点的R软件包,使用exomePeak分析可以解决转录组的异质性问题,大大简化了MeRIP-seq数据的分析流程。

输入和输出:exomePeak软件的输入是IP样本bam文件、对照组Input样本bam文件和基因组注释gtf文件。它以bed12的格式输出外显子区域鉴定的peak。bam文件最好可以通过一些转录组比对软件(如Tophat)进行比对,基因组gtf注释文件应包含用户感兴趣的所有转录本。它可以是从数据库如IlluminaiGenome、UCSCTableBrowser获得基因注释,或从cufflinks等程序中鉴定出的新转录本。当前版本exomePeak不扫描基因间或内含子区域的peak,这些peak可能属于所提供的gtf文件中未明确定义的转录本。

转录组异质性:exomePeak通过直接使用exome避免了异构体水平的差异(图S1)。它可以自动连接由内含子分隔的富集区,并将它们整合为单个peak。这样的peak在现有的ChIPseq的peakcalling程序中通常会被鉴定为的两个单独的peak。例如,FAM75A1在hg19上有两个非联合异构:NM_001085452(chr9:39355698-39361954)和NM_001085452(chr9:39884974-39891205),这两种异构体将分别被单独处理和鉴定。理想情况下,在经过PolyA磁珠富集后,应该只剩下很少的Pre-mRNA,这样就不会鉴定到基因间隔区和内含子区域的peak。对于含有Pre-mRNA的特殊文库,可能需要先使用转录组denovo组装软件,如Cufflinks,在使用exomePeak进行peak鉴定之前先对所有现有的转录本进行识别。

位移大小:由于使用非链特异性文库和单端测序两种统计模式,比对到“-”链的read需要位移。read位移的大小可以由用户设置,一般默认为片段长度的一半(图S2)。

特定位置read数量:我们使用一个大小为w=2f-r的滑动窗口,其中f是片段长度,r是reads长度。窗口大小可以覆盖所有read,其起始点可能与甲基化位点有关。利用span为w的“smooth”函数对特定位置reads密度进行计算。“smooth”函数可以算作一个动态平均函数,下面以span等于5为例,计算各位点reads密度:

连接read,连接富集区,跳跃外显子的peak:exomePeak软件以与ChIPseqspp软件用相同的方式处理短read。它仅适用于reads的起始位置,并假设read将跨越属于同一基因的相邻外显子。在大多数情况下,属于同一基因的两个相邻的富集区域可以自动连接并报告为一个singlepeak;然而,当甲基化peak跨越一个跳跃外显子时,由于它们之间的外显子未富集,它将被报告为两个singlepeak。这本质上是一个转录本可变剪接混淆的问题,而exomePeak没有完全解决这个问题。

2、FDR:错误发现率是通过交换IP和输入样本来计算的,在结果报告中Bed12文件的第9列出现。FDR是通过比较IP样品和Input样品中的总富集面积(peak的总长度)来计算的。交换IP和Input样本后,exomePeak将在显著性水平FDR<0.05处正确输出0个peak。这与ChIP-seq的许多其他软件工具(如报告q值的MACS2)有着根本的不同。对于MACS2,如果交换IP和Input样本,它仍然会在FDR<0.05时输出超过30k的假阳性peak。

图S1

背景估计:exomePeak提供两种模式来估计X0,w

‘p’方法,或称‘positional’方法,它使用Input对照样本中相应窗口区域的实际read计数。由于该方法过于灵敏,可能会导致许多假阳性peak。

“mga”方法,或“最小基因平均值”方法,它使用该基因的平均tag密度,该窗口中的tag密度应该低于该基因的平均密度,否则与“p”相同。当PCR扩增偏好或3'偏好较少时,这种方法更为保守且效果更好。尽管如此,它在灵敏度方面不及‘positional’方法。

内含子和基因间隔区的peak:exomePeak不扫描内含子区域,也不报告任何内含子peak。根据目前的RNA表观基因组测序方法,在PolyA提纯后,应该只剩下很少的Pre-mRNA,在理想情况下,不应该有任何read比对到内含子或基因间隔区。然而,在实际操作中,m6A甲基组数据中确实存在着内含子peak和基因间隔区的peak,这主要是由于以下两个原因:

首先,在新的转录本上有m6A甲基化位点,相对于不完整的基因注释数据库,它们被认定为是内含子或基因间隔区。特别是对于研究较少的生物体来说,这是非常常见的。一般来说,如果有已知的感兴趣的转录本,内含子的peak是可以忽略的,因为它们与任何已知的转录本或功能无关。但是,对于对未知的转录本感兴趣的用户,我们建议用户先运行转录组组装软件,然后将未知的转录本与现有的转录本相结合,之后再运行exomePeak进行peakcalling。这样,内含子peak就可以与新发现的转录本联系起来。注意到exomePeak可以直接获取由Cufflink和Cuffcompare生成的gft格式的基因注释文件,这有助于一些潜在分析的进行。

其次,在数据中可能存在来自Pre-mRNA的m6A甲基化位点,也可能存在来自其他生物的污染的m6A甲基化位点。即使在PolyA筛选后,样品中仍可能含有少量的Pre-mRNA。因此,潜在的污染可能导致内含子区域的read的产生,内含子区域约占人类基因组的98%。由于这些RNA通常作用不大,我们选择在exomePeak中忽略它们。对于需要考虑这些RNA的特殊情况,有必要在如上所述的peak检测之前运行转录组组装软件。

图S2

3、过滤PCRduplicates产物

一般来说,duplicates的程度高度依赖于tag密度。tag密度越大,预期的duplicates片段就越多。去除MeRIP-Seq中的重复片段read应该对低表达基因有益,但对高表达基因却不友好。由于我们一般更关心假阳性错误而不是假阴性错误(宁愿错过真正的peak也不将希望将假peak当作真的),所有duplicateread都使用Samtoolsrmdup函数过滤。这种类型的过滤将避免由于PCR产物引起的假阳性peak,但可能会错过高表达转录本上的peak。解决这一问题,可能需要更先进的PCR技术。

考虑长度为n/2bp的窗口,其中n是可能的唯一reads的最大数量。实际落入该区域的reads总数为m,唯一reads数x遵循以下分布

是第二类Stirling数,表示将m个对象的集合划分为x个非空子集的方法数。删除duplicateread后的read计数可以基于此进行更正。特殊read的实际数量可以通过特殊read的平均数量来估计,虽然分析难以处理,但可以通过MonteCarlo抽样方法轻松计算(图S3)。

图S3

4、与ChIPseqPeakCalling软件的比较

基于外显子方法的exomePeak已针对RNA表观基因组测序数据分析进行了优化,并具有许多独特的设计以适合MeRIP-seq数据处理的功能。表I中提供了exomePeak与MACS2之间的比较。

THE END
1.包装设计软件有哪些?包装设计软件大全免费包装设计软件下载不错的显示效果,获得大量的商业价值,绿色资源网小编为你提供如下优质包装设计软件下载,依次是:coreldraw x8绿色版,TBS Cover Editor,ArtiosCAD(包装结构设计软件),autocad2005中文修改版,Adobe Photoshop CS6绿色精简版,adobe illustrator cs7 修改版,产品包装设计软件(CoverCommander),SolidWorks,UG4.0,proe5.0修改版, http://www.downcc.com/k/baozhuangsheji
2.exocad设计软件怎么改成中文exo设计软件怎么改成中文在这个信息化的时代,设计软件在我们的生活中占据着越来越重要的地位。无论是建筑设计、产品设计,还是数字艺术设计,都离不开设计软件的支持。今天,我们要重点介绍的是一款广受欢迎的牙科CAD设计软件—exocad。它的强大功能和灵活性使其在全球范围内都得到了广泛的应用。这篇文章将向您展示exocad设计软件教程和exocad设计https://blog.csdn.net/Tilling231/article/details/141311595
3.虾米音乐苹果版下载(暂未上线)虾米音乐苹果官方版下载5.9.4官方版官方版官方版免费版 软件介绍 《虾米音乐》是一款免费的音乐歌曲欣赏下载软件,签约数百家唱片公司,最全的华语音乐尽在其中;最严格的收录标准,最专业的编辑整理,只为更好的服务爱音乐的你;无损音质,音效调节,给你最佳音质体验! 软件特色 1、【千万级曲库】签约数百家唱片公司,最全的华语音乐尽在其中;https://app.3dmgame.com/ios/606.html
4.exo帅哥魔秀桌面《exo帅哥魔秀桌面》是一款Android平台的应用。应用介绍 魔秀主题桌面—国内主题桌面先驱者魔秀主题桌面团队数百名优秀设计师亲自为你打造属于你的主题桌面,万余种免费主题桌面任你挑选,彰显手机个性。千万用户的选择,用户心中“最潮”“ 最酷 ”“最时尚”的主题桌面。最丰富的内容:海量精品主题桌面免费下载,总有https://baike.baidu.com/item/exo%E5%B8%85%E5%93%A5%E9%AD%94%E7%A7%80%E6%A1%8C%E9%9D%A2/19076475
5.AI日报:OpenAI将推自主AI代理Operator;腾讯元宝2.0版本上线;AI2、腾讯元宝APP2.0版上线:混元模型升级 支持多种模态理解和生成 腾讯元宝2.0版本正式上线,带来全新设计的对话列表和AI应用专属板块,满足用户搜索、阅读、写作、绘画等多维创作需求。新版本整合微信公众号、微信视频号、QQ音乐等特色信息资源,提供更智能、便捷的搜索服务。混元模型架构升级至“混元turbo”,性能大幅提升,支持https://www.chinaz.com/2024/1114/1653204.shtml
6.手机壁纸app哪个好用手机壁纸app下载安装手机壁纸app排行榜手机壁纸软件是一款专注于手机美化的壁纸软件,海量高清无水印壁纸实时更新,动态的,静止应有尽有!全都免费为用户提供使用,只需一键设置就可以啦!手机壁纸软件,精美壁纸锁屏领导者!欢迎前来下载体验!https://www.qqtn.com/qqkey/sjbzrj/
7.新兴流量渠道全解析:产业链新机遇蕴藏在哪里?以微信、QQ等软件为代表的实时沟通软件充分满足了人与人之间点对点即时沟通需求的满足。由于对网速及手机硬件要求较低,其在较早的阶段得到了发展。然而,近几年,由于其已经形成较大量的规模,在14年之后该类社交平台MAU增长速度开始放缓。 在拥有了海量流量之后,腾讯也已开始积极利用其微信、QQ通过广告、游戏等方式进行http://www.360doc.com/content/12/0121/07/17132703_558644734.shtml
8.满速下载初创公司最新版(4.10更新)吾爱破解无人深空最新版(含EXO MECH,4月8日更新!)非百度云盘https://www.52pojie.cn/thread-1151736-1-https://www.52pojie.cn/thread-1153682-1-1.html
9.李敏镐/exo/金秀贤instagram账号介绍instagram明星账号汇总今天向大家介绍的是李敏镐/exo/金秀贤instagram账号、instagram明星账号汇总,感兴趣的朋友抓紧来看看 GPT4.0+Midjourney绘画+国内大模型 会员永久免费使用! Jeremy Scott(知名设计师!): itsjeremyscott Paris Hilton: parishilton Lindsay Lohan(林赛罗翰她是私人账户,不过人气有28万多,估计是人气最旺的私人账户https://www.jb51.net/softjc/156234.html
10.软件微内核与宏内核Exokernel外核 外核更小,比微内核还要小。外核的目标是让应用程序获得最多的控制硬件的自由,就是让开发者对硬件控制更深,以便于开发出性能更好的应用程序。 在外内核的基础之上,应用程序Program和库文件Lib一起直接实现应用程序+操作系统的功能,称之为库LibOS,它直接以最高权限运行,不存在kernel mode和user modehttps://www.jianshu.com/p/194080a25405
11.AppStore上的“全民写小说【免费看小说】免费读书软件:每天读点故事,万部原创小说电子书作品,全部免费阅读;各类小说作品:对话体小说,言情小说、玄幻小说、都市小说、历史小说、网游小说、轻小说、科幻小说、校园小说、TFBOYS小说、EXO小说、鬼故事、武侠小说、经典名著、军事小说、灵异小说、剧情小说、侦探小说、纪实小说、激情小说、校园小说、穿越https://apps.apple.com/cn/app/id1393926205
12.F1直播源IPTV电视直播源APTV电视直播源IPTV直播软件广电电视TV版 1.9.9 一款免费的手机电视直播软件,支持电视端安装使用,用户可以通过这款APP自由添加自己喜欢的频道,享受高清的播放画质,软件无广告,也没有任何限制,全部频道都可以免费看。 提供央视、卫视、地方电视台等多个频道的直播服务。APP覆盖了央视、卫视、地方台等2000+频道,满足用户的不同观看需求。用户可以https://github.com/dongyubin/IPTV
13.收藏微软面试智力题(附答案)我是一个二手的程序员!55、假设我们想通过电脑来操作一台微波炉,你会开发什么样的软件来完成这 个任务? 56、你如何为一辆汽车设计一台咖啡机? 56、如果你想给微软的Word系统增加点内容,你会增加什么样的内容? 57、你会给只有一只手的用户设计什么样的键盘? 58、你会给失聪的人设计什么样的闹钟? https://www.iteye.com/blog/jythoner-406811
14.PrimerdesigningtoolFinding primers specific to your PCR template (using Primer3 and BLAST). PCR Template Enter accession, gi, or FASTA sequence(A refseq record is preferred)HelpClear Or, upload FASTA file RangeHelpClear FromTo Forward primer Reverse primer https://www.ncbi.nlm.nih.gov/tools/primer-blast/
15.生信分析零背景变异注释你也行腾讯云开发者社区目前已知的主流变异位点注释软件包括annovar、VEP、 snpeff等,VEP是ensembl出品,质量有保障。VEP发布了在线版和下载版,对于非生物信息背景的各位,可以用在线版实现相关信息的注释。 使用说明 MANUAL 一 、注册账号 百度或谷歌搜索”ensembl vep”,进入vep官网,注册方式如图:https://cloud.tencent.com/developer/article/1803508
16.手机桌面日历软件安卓桌面日历软件app,从而能够跨所有设备更高效地工作。 Microsoft Launcher 具有强大的自定义功能,因此你可以整理手机上的所有内容。使用你的个性化源,你可以随时随地轻松查看日历、待办事项列表和便笺。http://www.appchina.com/dna/1869
17.中望软件业绩会:公司教育板块业务有望逐步改善凤凰网财经“2024年上半年,在全球经济增长缓慢、国际局势日益复杂的宏观背景下,中望软件顶住压力,依托旗下以ZW3D为首的CAx产品性能的持续提升、行业解决方案的逐步成熟,以及国内外销售体系的日趋完善,总体上取得了较好的成绩。”8月19日下午,被称为“国产CAD第一股”的中望软件(688083)举办2024年半年度业绩说明会,公司副总经https://i.ifeng.com/c/8cBEFiEXOzQ