深度学习算法设计CRE,机器学习引领细胞特异性反式调控元件设计,临床应用的新纪元迭代序列特异性

基因表达是一个复杂的过程,受到多种因素的调控,其中CRE扮演着关键角色。这些DNA序列通过与特定转录因子结合来调节目标基因的活性。尽管近年来的研究已经鉴定了数百万个潜在的人类CRE,但这些自然进化的序列仅仅是所有可能性的一小部分,并不一定符合临床应用中的最佳表达需求。理论上,一段200碱基对的DNA可以包含超过2.58×10120种不同的组合——比可观测宇宙中的原子数量还要多。这些DNA序列组成了一个尚未被充分发掘的DNA序列空间,也是挖掘具有临床和生物技术应用潜力的CRE的储备库。

研究设计与结果

为了克服传统方法在识别和验证CRE时遇到的挑战,Gosai团队引入了三项关键技术:

1)大规模平行报告基因检测(MassivelyParallelReporterAssay,MPRA):能够同时评估成千上万个CRE的功能,从而获得关于调节语法(regulatorygrammar)的广泛认识。

2)深度学习算法(Malinois):用于预测不同细胞类型中遗传序列如何影响CRE活性,构建出精确的“调控语法”模型。

3)基于预测模型的定向CRE生成(CODA):基于上述CRE序列评分算法,对随机序列进行迭代,允许研究人员根据所需功能和特定细胞定制合成CRE。

实验结果显示,使用这些合成的CRE可以在斑马鱼和小鼠中实现细胞类型特异性的驱动效能。此外,该研究也展示了如何利用CODA软件库及Malinois模型来生产合成序列,并通过体外和体内实验验证了其效能。

为了建立精确的CRE活性模型,研究人员首先在K562(红系前体细胞)、HepG2(肝细胞)和SK-N-SH(神经母细胞瘤)三种人类细胞类型中通过MPRA分别分析了超过77万段200nt长的DNA序列,筛选具有细胞特异性CRE活性的基因组序列信息(图1a)。

Malinois预测重现了MPRA筛选的重叠片段,这些片段来自以GATA1基因为中心的2.1Mb窗口(图1d)。此外,在K562细胞中,Malonis预测的CRE区域与DNaseI超敏感位点(DHS)、H3K27乙酰化(H3K27ac)和STARR-seq峰均有很好的一致性(图1e)。这些结果说明Malonis具有良好的CRE活性预测功能。

接着,研究人员又设计了一个名为CODA的模型,用以从头设计新CRE序列。CODA遵循一个迭代循环:预测序列的活性(通过上文提到的Malonis)、量化序列是否符合设计目标,并更新序列以增加目标值(图2a)。设计目标是获得在模型细胞系中驱动特定细胞类型报告基因转录的CRE序列。通过计算序列在目标细胞类型中预测MPRA活性值与两个非目标细胞类型中预测MPRA活性最大值之间的最小差距(MinGap)来衡量成功程度。迭代方法则分别尝试了进化式的AdaLead、基于概率的模拟退火以及基于梯度的FastSeqProp。

通过使用不同迭代方法的CODA,研究人员设计了36000个细胞特异性CRE序列,却发现CODA对某些最大化细胞特异性的特定序列具有偏好性。为此,研究人员通过在目标函数中引入惩罚机制来减少这种偏好性的产生,尽管这会牺牲细胞特异性,但极大丰富了序列的多样性。

通过MPRA,对Malonis预测的天然CRE序列、CODA设计(惩罚/非惩罚)的CRE序列以及基于DHS(结合H3K9ac和染色质可及性)预测的天然CRE序列(统称为MPRA测试库)的活性进行验证,进一步证明了Malonis的CRE活性预测能力(图2b&c)。并且Malonis对CRE细胞特异性的预测能力显著强于基于DHS的预测(图2d&e)。

此外,CODA设计的CRE序列对比天然序列展现出更高的细胞特异性(图2d&e)。并且,基于FastSeqProp的CODA方法所设计的CRE序列具有更好的稳定性和更高的MinGap。而惩罚模式会降低设计序列的细胞特异性但仍显著优于天然CRE序列(图2d&e)。

为了将序列内容与对应的转录因子(TF)联系起来,研究人员通过Malinois和改良的集成梯度方法,分别预测每个序列在三种细胞类型中单核苷酸分辨率的活性贡献分数(contributionscore),并基于贡献分数筛选出66种DNA基序(motif)序列模式。

然后通过TF-MoDISco方法,从中提取出在MPRA测试库中富集的36种非冗余的核心基序模式(7-18bp),其中31种与已知的人类TF结合位点高度吻合。在36个核心基序中,28个对序列活性具有阳性预测贡献,而其余8个具有抑制作用(图3b)。这包括众所周知的激活因子,如GATA63,GATA63是在K562细胞中表达的必需TF,Malinois预测其仅在K562细胞中驱动活性。

使用贡献分数为基础的模式扫描,发现所有36个核心基序模式在算法设计和天然序列中都至少出现一次,表明这两种类型的序列共享TF库(图3b)。词法分析表明,算法设计序列通常包含更多的独特基序模式以及模式类型数,而惩罚性设计则显示出比非惩罚性设计更高的非冗余基序使用。

此外,合成序列中特定的基序组合使用频率更高(图3c),大多数非惩罚性和Malinois天然序列中都存在不同的激活-激活基序对(95.7%和93.4%),而激活-抑制和抑制-抑制基序对在天然序列中出现的比例较低。

除了单个TF基序和成对的使用外,细胞类型特异性还被认为通过更高阶的基序语义产生。这些基序语义可以介导许多转录因子之间的复杂相互作用,并赋予CRE活性。研究人员采用非负矩阵分解(NMF)将序列库中每一条序列分解由12种功能程序组成的基序组合。NMF鉴定出5种细胞特异性的程序,1种出现于K562细胞,2种出现于HepG2细胞,2种出现于SK-N-SH细胞中(图3d)。

与天然的CRE相比,算法设计的CRE包含更多程序,这与较多的基序使用一致。此外,自然序列主要依赖激活程序,而合成序列也经常使用非目标细胞类型中具有抑制作用的程序。这些结果提示,算法设计序列性能的提高是由于细胞特异性激活和非目标细胞特异性抑制基序的结合。

为了CODA序列在更多细胞类型中的特异性,研究人员针对A549细胞(肺上皮癌细胞)和HCT116(结直肠上皮癌细胞)也进行了训练,依旧发现CODA设计序列在特定细胞类型中展现出最高的预测活性。

然后,他们构建了一个报告基因质粒,在驱动GFP表达的最小启动子上游插入了人工合成序列,并导入斑马鱼胚胎,发现三个预测肝脏特异性CRE中的两个能够诱导GFP在斑马鱼胚胎发育过程中肝细胞的强烈表达,而在非目标细胞中仅有较低的非特异性表达(图4b),神经特异性CRE也展现出类似的结果(图4c)。

在小鼠胚胎上的进一步验证,发现神经特异性的CRE(synN1CRE)能够驱动报告基因在发育的皮层中表达,而这种皮层特异性的表达在出生后的小鼠中也存在(图4d),主要是新皮质第6层的神经元和板下神经元(图4e-g)。

基于Malinois贡献分数,在synN1CRE中发现一个ETSGGA(A/T)结合域和四个CREB样TGACGCA结合域,提示ETS因子与CREB形成异源二聚体的可能性,而在SK-N-SH细胞上的饱和突变MPRA研究验证了ETS和CREB结合区域的作用。

拓展延伸

人工设计CRE具有广泛的应用前景。

●个性化医疗与精准医学

1.基因治疗和药物开发

合成CRE的应用可以直接改善现有基因疗法中存在的主要障碍之一——即缺乏有效的细胞类型特异性递送机制。通过创建高度组织特异性的合成CRE,我们可以更好地控制治疗性基因的表达模式,减少脱靶效应的风险,提高疗效的同时降低副作用的发生几率。这对于治疗那些由单基因突变引起的罕见病尤其重要,因为这类疾病往往需要非常精确地修复或替换受影响的基因。此外,借助机器学习的力量,我们还可以针对不同类型的癌症细胞设计专门的CRE,使其仅在肿瘤细胞内激活特定的治疗性基因,而不影响正常细胞。这种策略不仅可以增强抗癌药物的效果,还能显著减少传统化疗所带来的全身性毒性反应。

2.疾病模型构建

利用合成CRE可以更精细地模拟人类疾病中的基因表达变化,从而建立更加真实的动物模型。例如,在神经系统疾病的研究中,科学家们可以使用这些工具来驱动神经元特异性基因的表达,以研究帕金森病、阿尔茨海默病等复杂病症背后的分子机制。同样地,在心血管疾病领域,合成CRE可以帮助研究人员探索心脏发育过程中关键信号通路的作用,进而找到新的治疗方法。

基础生物学研究

3.发育生物学

在发育生物学中,理解细胞命运决定过程是核心问题之一。合成CRE使得科学家能够以前所未有的精度操纵特定细胞群体中的基因表达,揭示出哪些因子在胚胎形成早期阶段起着决定性作用。比如,通过在斑马鱼胚胎中引入合成CRE,研究者可以观察到不同器官原基形成时的关键事件,深入了解多能干细胞向各种成熟细胞类型分化的过程。

4.进化生物学

从进化的角度来看,合成CRE提供了一个全新的视角去探讨物种间基因调控网络的变化。由于这些序列不是自然界存在的产物,而是基于对已知调控语法的理解人工设计出来的,因此它们可以作为“实验探针”,帮助我们检验关于遗传变异如何塑造生物多样性的假设。例如,比较两种亲缘关系较近但表型差异明显的物种之间的合成CRE活性,可能有助于识别出导致二者分化的关键调控变化。

●农业与环境科学

1.作物改良

农业领域同样可以从这项新技术中受益匪浅。通过设计能够响应环境信号(如光照强度、水分含量等)的合成CRE,科学家们可以培育出适应性强的新品种植物。这些改良后的农作物不仅能在恶劣条件下保持产量稳定,还可能具备更好的营养品质或抗病虫害能力。例如,合成光敏型CRE可以让作物在低光照环境下依然维持高效的光合作用;而干旱耐受型CRE则可以使植物在缺水期间关闭不必要的代谢活动,节省资源。

2.生态工程

合成生物学原理也被应用于构建人工生态系统,其中合成CRE扮演着至关重要的角色。例如,在污水处理厂中,工程师可以利用合成微生物群落来降解有害物质。为了确保这些有益菌能够在特定条件下发挥最佳性能,科学家们可以通过合成CRE精确调节其基因表达水平,保证整个系统的高效运行。类似的方法也可以用于土壤修复、空气净化等多个方面,促进可持续发展。

临床应用与展望

对于临床医生而言,这项新技术带来的最大益处在于它有可能改善目前基因疗法中存在的主要障碍之一——即缺乏有效的细胞类型特异性递送和表达机制。通过创建高度组织特异性的合成CRE,我们可以更好地控制治疗性基因的表达模式,减少脱靶效应的风险,提高疗效的同时降低副作用的发生几率。这对于治疗那些由单基因突变引起的罕见病尤其重要,因为这类疾病往往需要非常精确地修复或替换受影响的基因。

总之,SagerJ.Gosai及其同事的工作标志着我们正站在一个新时代的门槛上,在这个时代里,借助先进的人工智能技术和生物学知识,我们将能够书写出前所未有的生命密码,为人类健康事业开辟新天地。

注:本文旨在介绍医学研究进展,不做治疗方案推荐。如有需要,请咨询专业临床医生。

参考文献

GosaiSJ,CastroRI,FuentesN,ButtsJC,MouriK,AlasoaduraM,KalesS,NguyenTTL,NocheRR,RaoAS,JoyMT,SabetiPC,ReillySK,TewheyR.Machine-guideddesignofcell-type-targetingcis-regulatoryelements.Nature.2024Oct;634(8036):1211-1220.

THE END
1.算法设计非常复杂,如何才能设计出优秀的算法?10.学习和分享:不断学习新的算法技术和数据结构,并积极参与算法社区,分享你的经验和知识。 总之,设计出优秀的算法需要深刻的理解问题、熟练掌握数据结构和算法分析,以及不断的实践和反思。同时,与其他算法设计者和研究者保持沟通,分享经验,共同推动算法设计的进步。 这道题要求讨论如何设计出优秀的算法。算法设计是https://easylearn.baidu.com/edu-page/tiangong/questiondetail?id=1813192804582657431&fr=search
2.算法设计与分析(第3版)课后答案《算法设计与分析》是计算机科学领域的一本经典教材,主要涵盖了如何设计高效算法以及如何对这些算法进行分析。在本书的第三版中,作者王晓东深入浅出地讲解了算法设计的基础理论和实践技巧,并提供了详尽的习题解析,帮助读者巩固所学知识。以下是基于这个主题和提供的文件名“算法设计与分析习题答案”所涵盖的一些关键知识https://download.csdn.net/download/dyufei/1498280
3.趣学算法(第2版)本书实例丰富、通俗易懂,以大量图解展示算法的求解过程,重点讲解遇到实际问题如何分析和设计算法,讲解方式富有启发性,有利于激发学生的学习兴趣和创新潜能。书中汇集了作者根据多年教学实践总结出的各种算法的解题技巧并对知识进行了优化拓展。读者阅读时既能掌握解题的方法,又拓宽了视野,有利于培养其逻辑思维能力,为解决https://www.epubit.com/bookDetails?id=UB7d85fa69dcbd8
4.腾讯Offer已拿,这99道算法高频面试题别漏了,80%都败在算法上3. 如何对类别变量进行独热编码? 4. 如何把“年龄”字段按照我们的阈值分段? 5. 如何根据变量相关性画出热力图? 6. 如何把分布修正为类正态分布? 7. 怎么简单使用PCA来划分数据且可视化呢? 8. 怎么简单使用LDA来划分数据且可视化呢? 深度学习类: https://maimai.cn/article/detail?fid=1699482551&efid=WqEcULyCOsAoPWgBSGGaFg
5.2021届计算机科学方向毕业设计(论文)阶段性汇报在这其中所遇到的挑战有如何支持多种的语义表征任务,如何对每个实体动态的弹出实体创建菜单,以及一些网页格式问题等。 万梓煜 多智能体强化学习的实现 本次阶段性汇报主要介绍多智能体强化学习框架MALib的设计与完成情况,以及针对目前的研究内容实现的功能。其次介绍在当前框架上部分强化学习算法的复现情况以及遇到的https://zhiyuan.sjtu.edu.cn/html/zhiyuan/announcement_view.php?id=3943
6.人工智能快速发展趋势下,中国该如何应对?1、AI芯片针对机器学习算法设计开发,广泛应用于云、边、端各类场景 AI芯片(AI Chip)是一种专门用于处理人工智能相关的计算任务的芯片。它的架构是专门为人工智能算法和应用进行优化的,能够高效地处理大量结构化和非结构化数据。AI芯片能够高效地支持视觉、语音、自然语言处理等智能处理任务。目前,AI芯片主要分为GPU、https://developer.aliyun.com/article/1179745
7.路径规划中的DRL与OR算法:对比与展望引入机器学习的期望之一就是提高其泛化能力,即训练完的模型可以有效地应用于未曾见过的问题实例。为了提高泛化能力,对于图这种非欧几里得数据来说,通过图嵌入(Graph embedding)来抽取数据中的有效特征,通过低维的向量来表征图的节点及拓扑结构等信息,再作为后面机器学习算法的输入。而图神经网络(Graph neural network,GNNhttps://www.51cto.com/article/757803.html
8.《面向算法设计的数据结构》之前世今生算法应用 我们考虑展示更多数据结构在算法中的应用, 特别是引入高效数据结构之后算法性能发生显著变化的实例. 只有通过这些实实在在的例子, 才能让学习者感受到数据结构之妙. 事实上, 写作本书的目的也是为了配合后续进阶算法课程的需要, 希望能让这本书成为学习《算法导论》和《算法设计》的一个良好铺垫, 能让大家https://www.jianshu.com/p/25887f595ca4
9.Creator面对面几何深度学习的算法设计和数学理论机器之心Creator 面对面 | 几何深度学习的算法设计和数学理论 2016年,Yann LeCun 等人在 《Geometric deep learning: going beyond Euclidean data》一文中提出几何深度学习这一概念。现今几何机器学习和基于图的机器学习已经是当前最热门的研究课题之一。 2022 年 1 月,上海交通大学自然科学研究院、数学科学学院副教授王宇光https://www.jiqizhixin.com/articles/2022-07-20-7
10.《自然》:科学家首次基于深度学习算法,从头设计出自然界不存在的酶虽然蛋白结构预测方面有了RoseTTAFold、AlphaFold 2等人工智能算法的相助,但要想实现从头设计全新蛋白质,仍然是个费时费力的艰巨任务。目前,即使是借助机器学习算法,蛋白质设计也主要是把自然界中现有的蛋白质拿来改造,以进行优化或获得特定功能,而非真正地设计并创造一个全新的蛋白质。 https://www.thepaper.cn/newsDetail_forward_22260238
11.第6课《猜数字算法设计》(学案)六年级上册信息科技浙教版.pdf第6课《猜数字算法设计》(学案)六年级上册信息科技浙教版.pdf,六年级第一单元第 6 课《猜数字算法设计》学案 一、学习内容 《猜数字算法设计》选自浙江教育2023 版信息科技六年级上册第一单元第 6 课。通过本单元 的学习,本节课旨在让学生分析猜数字大小的问题,提取关键https://m.book118.com/html/2023/0929/5210031034010334.shtm
12.基于深度强化学习的水面无人艇路径跟踪方法因此,如何设计一种能够提高无人艇路径跟踪控制稳定性和准确性的方法是亟需解决的技术问题。 技术实现要素: 6.针对上述现有技术的不足,本发明所要解决的技术问题是:如何提供一种基于深度强化学习的水面无人艇路径跟踪方法,无需进行环境和无人艇运动建模并且具备自适应能力,从而能够进一步提高无人艇路径跟踪控制的稳定https://www.xjishu.com/zhuanli/54/202210772926.html/
13.AAAI2020强化学习玩王者荣耀腾讯云开发者社区算法设计 Reinforcement Learning用的还是熟悉的actor-critic网络,具体如下图所示: 状态设计:如上图;将图像特征fi,向量特征fu和游戏状态信息fg(可观察到的游戏状态)分别通过卷积层、最大池化层和全连接层编码。LSTM输出动作按钮和移动方向。 动作解耦:认为动作之间独立,目标为最终几个策略累积奖励之和; https://cloud.tencent.com/developer/article/2119379
14.科学网—[转载]基于容器云技术的典型遥感智能解译算法集成模型开发根据预先设计的深度学习算法,基于深度学习框架,进行智能解译算法的代码编写和镜像构建。其基本流程如图8所示,具体如下。 图8 模型开发流程 (1)从私有仓库或开源仓库使用Docker pull操作获取所需的基础环境镜像。基于基础环境镜像,添加OpenCV、GDAL、SciPy等Python包。对基础镜像统一设置SSH登录端口,以便后期调试https://blog.sciencenet.cn/blog-3472670-1339282.html
15.AI深度强化学习落地方法七步曲2——状态空间篇回报函数篇针对稀疏回报问题,学术界提出了很多方法,比如通过鼓励agent探索未见过的状态,提高正样本利用率,或者干脆用遗传算法或进化策略代替RL学习policy网络。这些方法不在本篇的讨论范围内,我们关心的是如何通过reward设计本身来规避稀疏回报问题,并尽可能提高训练效率和最终性能。 https://www.shangyexinzhi.com/article/4228946.html
16.《算法设计与分析基础(C++版)学习和实验指导》(李春葆陈良臣当当网图书频道在线销售正版《算法设计与分析基础(C++版)学习和实验指导》,作者:李春葆、陈良臣、喻丹丹,出版社:清华大学出版社。最新《算法设计与分析基础(C++版)学习和实验指导》简介、书评、试读、价格、图片等相关信息,尽在DangDang.com,网购《算法设计与分析http://product.dangdang.com/29583939.html