百图生科科学顾问高欣：自我否定二次创新，我为纳米孔测序提供了更可靠的AI工具万字长文dna测序靶点|DTW算法_在线学习

“接下来，生物计算将成为百度重点发力的关键领域之一，在这一赛道的投入上，百度只有尽力，没有尽头。“

这是近期，李彦宏在首届生物计算大会上的一段豪言壮语。

作为此次论坛的开场报告嘉宾，百图生科科学顾问、沙特阿卜杜拉国王科技大学教授，高欣以《更精准的生物医学及基因组学》为题，进行了演讲。

这些问题也在日后的研究中逐步被优化和改进。

以下是演讲全部内容，雷锋网做了不改变原意的整理和编辑：

这一漫长流程由多个步骤组成的，从最开始靶点识别，到先导化合物发现、先导化合物优化、临床前动物实验、多期临床实验。

整个流程当中，任何一个步骤出现失败，都导致整个流程以失败而告终，整个药物发现流程成功率非常之低，只有不到5%。

而且在这些步骤中，晚期发现失败消耗的代价，要远远大于早期失败。因此，早期步骤成功率在整个流程至关重要。

长读长测序：基因组数据的抽提利器

我想谈的是，如何通过第三代测序技术，更快、更准确得到基因组数据，得到基因组数据之后，如何更好解读基因组数据，以求发现更好的药物靶点。

今天我主要集中在第一步，介绍我的课题组工作，即时DNA测序方面成果。

现代医学大多都是基于基因组诊断，人共有30亿对碱基，这些碱基都是非常长的基因组序列。

大家可以把它理解成一本非常厚的字典，每个人都有一个模板。抄写这本字典的时候，就无法避免犯一些错误，例如插入、删除、错别字等等。

绝大部分错误不会导致严重后果，但如果在一些关键位置抄写错误，就会导致罕见遗传疾病。基因组诊断就是要把这些抄写错误和罕见遗传疾病相互关联起来，做到这一点，就要知道错误发生地点。

因为生物技术所限，我们没有办法通读整个字典，只能把字典拆分成一页一页，或一段一段分别解读，最后整合起来。

这是一件非常难的任务，就好像是很出名的变形艺术—metamorphosis。

基于这种metamorphosis变形艺术设计拼图游戏，就会发现拼图游戏非常难，因为所有piece都高度相似，没有任何两块完全一致。

因此，大家想出各种办法克服技术上难点，其中一个直观办法就是把拼图块从小块变成大块，所谓长读长DNA测序。

长读长DNA测序，主要有两种技术：PacBio和纳米孔。

纳米孔相对于其它测序技术来说，主要有几大优势：

第二，测序长度非常长，可以读长有大约10k到100k这么长，相对于二代测序100~200bp长度，已经是很长的读长长度，因此可以很好处理大结构变异，以及DNA中的repeat；

第三，纳米孔测序不需要进行PCR扩增。

既然有好的地方，就一定有坏的地方，纳米孔有这么多技术上优势，主要劣势就是测序精度。

例如R9Flowcell，测序精度只有85%左右；即使最新R10，官方精度也只有95%左右，相比于二代测序99%精度，这个确实非常低。

数据处理：纳米孔测序的长期瓶颈

测序精度低除了设备上局限性，纳米孔数据分析也是非常难的任务。

在此，我简单介绍一下纳米孔工作原理，纳米孔当中有一个膜，膜上有一些穿膜蛋白，即membraneprotein。

对于计算机同学来说，解码是一个非常经典的任务，有很多现成算法，但纳米孔解码和传统解码完全不同，主要有几大技术难点：

第一，电流测量范围小。1024种不同5mer，它们之间平均误差已经小于电流之间测量误差，直接做解码，就会有很多不确定性。

第二，DNA序列并不匀速通过，有的时候很快，有的时候很慢。但电流是以恒定频率被测量，因此在电流中，有的5mer会被测两次，有的5mer会被测200次，平均一个5mer大约被测10次左右。

第三，信号联配困难，DNA读长大约有1万到10万这么长，原始电信号长度又是DNA读长10倍左右，也就是10万到100万这么长。

纳米孔测序数据分析是一个非常难的任务，我的课题组过去三年里，已经研发端到端计算平台用于处理纳米孔测序数据分析等关键问题。

WaveNano：纳米孔测序的解码框架

预测完两种标签概率之后，我们就可以通过概率引导Viterbi解码算法，解码出DNA读长序列，整个流程最重要的就是“如何为监督式学习准备训练数据”。

但原始电信号序列非常长，没有人会手工标注这些标签，只能自己进行数据标注，找到原始电信号和DNA读长之间最优联配。

大家可以把它理解成动态规划的变种，动态规划没有空位罚分(GapPenalty)的情况下的变种。因为它的电流序列长度是DNA序列长度10倍，因此一旦gappenalty，gappenalty就会占据主导位置，最后联配不会好，因此就需要采用没有罚分项动态规划变种，就是DTW算法。

简单给大家展示一下DTW算法性能，和官方basecalling、Metrichor和Albacore等方法进行对比。

因为其它两个程序并不开源，不知道训练数据情况，这个比较可能还不公平，尚且无法断言，我们的算法basecalling要比官方的好。但从这个表格至少可以发现，WaveNano工具非常不错。

问题溯源：两大思路继续精细化

但我对WaveNano其实并不满意，为什么？

首先，我更感兴趣的是现有问题，是为挑战性问题量身打造的新算法，不是简单应用市面上已有深度学习框架。

其次，这个问题还有两个限制：

第一个限制，训练数据准确度不可控。对于监督式学习模型，如果训练数据质量不好，或标注不好，最终无论算法多么强大，训练出的模型一定不好。

而刚才训练的模型，都是自己联配得来的训练数据，完全不知道离真正groundtruth相差多远。

因此，做出这些研究之后，作为一个计算机学家，我问了自己两个问题：

1.自己有没有可能得到更可控、质量更好的标注数据，用于训练监督式学习模型？

接下来，介绍一下两个问题的解决方式：

其实深度学习经常会出现数据量不够，或者标注数据量不够的情况。

这种情况下，大家经常会使用模拟器，例如AlphaGo就大量使用模拟器模拟非常多的围棋对弈。

纳米孔训练上，我也想到了模拟器想法，虽然在此之前已经有若干纳米孔模拟器，但这些模拟都是DNA读长，没有任何人能够模拟原始电信号序列。

因此在三年前，我们提出了一个想法—Deepsimulator，它可以模拟纳米孔测序整个流程。

首先，主要通过给定基因组，随机把它打成一些DNA读长，并且保证这些DNA读长分布和真实数据读长分布保持一致。

其次，对于这些随机生成读长的每一个DNA，还要随机生成它的原始电信号序列，最后用basecaller，从原始电信号序列把DNA读长给呼叫回来。

因为自己的basecaller并不完美，所以call回来的DNA读长并不完美，自然会引入一些插入删除，以及一些variation。

但最终模拟器还是为业内人士提供大量训练数据，用于训练他们的解码器，被大家使用的频率非常多。

所以去年，我们又提出模拟器1.5版本。这里简单介绍一下其中的技术细节。

第一步，生成和实际数据读长长度分布一致的读长长度，为了达到这个目的，就需要对实际数据进行读长分布总结。

我们发现，实际纳米孔测序数据基本服从三个分布：指数分布、β分布和两个γ混合分布。

我们分别对三个分布进行参数估计，然后把选择权留给用户，用户选择按照哪一种分布去进行生成，最终发现生成的数据读长分布，和实际真实分布非常类似。

第二步，对随机产生的DNA读长生成原始电信号序列。为了这件事，我们又提出了新模型—深度典型事件规整（deepcanonicaltimewarping）。

它的想法是基于DNA读长和原始电信号，分别加入两个深度学习网络作为特征提取器，提取出来两个特征序列。

在模型训练过程中，我们可能需要训练整个网络，但测试阶段只需要使用其中部分，也就是从一个读长生成原始电信号序列。

因为每一个5mer都会平均被测到10次，所以还要对每一个真实5mer重复测量次数进行统计，统计匹配分布，使得数据5mer重复测量次数和真实数据达成一致。

我们分别在4个物种上进行了模拟器训练和测试。

简单给大家展示一下结果，通过这个图里所有对角线之的点，大家可以看到模拟器要远远好于现在市面上现有模拟器。

回到第二个问题，也就是如何更快进行DNA读长和原始电信号序列联配。

大家已经知道，原始电信号序列长度是DNA读长10倍，而DNA读长长度是1万-10万，原始电信号读长就是10万-100万。

尽管有非常多DTW算法变种已经被前人所发现，但所有这些方法都无法处理这么长、尺度相差这么大的两个序列联配。

基于motivation，我们提出了一种新算法—连续小波变换DTW，也就是CWDTW，它整合了三种不同idea，第一分层动态规整，第二粗化动态规整，第三受限动态规整。

在这里我列举一个案例，如果想对两个原始序列进行联配，但两个序列都特别长，没有办法直接联配，就需要通过连续小波变换把信号进行压缩和特征提取。

因为连续小波变换，在原始电信号特征提取层面已经被证明具有很强优势，所以通过连续小波变换，可以让原来序列长度变得非常短。

在短序列维度上，就可以进行最优DTW算法，找到联配路径，而其还可以从粗化连续小波变换维度，找到更细化维度，随后序列就会变长，同时还会把找到的联配路径，投影到更细化的分辨率上。

在投影过程当中，我的联配路径一定不会是最优，但假设联配路径是一个很好的出发点，假设成一个更好联配路径。

在这个路径的邻距范围，假设一个窗口大小，让算法这个窗口范围内找到更好的联配路径。

当然窗口大小也是算法重要参数之一，随着找到更好的联配路径，就可以把它再映射到更高分辨率维度上，随着整个过程的不断循环，就可以获取到最原始的维度。

这张图，比较了该算法和现有DTW算法性能差异，对角线上就是最优解，离对角线越近，说明找出来的联配路径离真实联配路径就越近。

大家看到红点就是FASTDTW，它离真实联配路径非常远，CWDTW基本上都能找到最优联配路径几乎一致的路径。

疾病嵌入：从基因数据到疾病表征

刚才介绍了通过AI方法以及高效算法，研发端到端即时DNA测序平台，我们不但要测DNA序列，还要解读DNA序列，以求发现更好的药物靶点。

在这方面，我们也做了很多工作，例如有了DNA序列之后，怎样发现每一个样本突变，怎么把它和疾病建立准确的关系。

为此，我们两年前提出了一个想法—“疾病的嵌入。”通过1.5亿美国人健康保险数据，把人类600多种所有疾病同时投影、嵌入到一个高维连续空间内。

这种嵌入一旦完成，就不需要再把疾病名字当成离散名词来使用，例如糖尿病、肝癌，大家不知道两个病之间关系是什么，更不存在定量关系。

疾病嵌入之后，每一个疾病都变成20维连续空间的一个向量，不但可以谈论疾病之间相似性，还可以谈论疾病之间不同点。

而且过去一个人同时得了多种疾病，也知道如何去表达，通过疾病嵌入只需要把这几种疾病向量相加到一起，或者加权到一起，就可以代表病人的diseasetree。

这是我们两年前的工作，证明当疾病嵌入空间向量为特征时候，可以在任何一个地方，例如丹麦、瑞典这种基因组学数据上估算遗传学参数。

此外，我们还从疾病的发病年龄中就发现，不同疾病的发病年龄有很强的模式，基本可以聚成5种不同类型疾病种类。

除了这些，疾病嵌入空间还可以重新做之前的基因组关联，也就是GWAS，同时对人类600种疾病进行基因关联。

我们在英国UKBiobank上，通过疾病嵌入特征空间，跟基因组突变空间进行新关联，就发现了116种非常强的关联信号。

这在之前GWAS研究都没有发现。而这116种强烈关联信号，很有可能作为新疾病药物靶点，同样的想法还可以应用到多模态同时嵌入，就是除了嵌入疾病还可以做药物和疾病关联嵌入。

这样疾病可以作为正则项来影响药物嵌入，反过来药物也可以作为正则项来影响疾病嵌入，不但可以嵌入疾病和药物，还可以嵌入他们之间的关系，更好发现新靶点，以及疾病潜在药物。

深度解码：罕见遗传病的隐性秘密

有了基因组之后，还可以找一些更隐性、更深的致病突变。例如孟德尔疾病就是由某一突变或某一基因突变造成，这是人类了解最多的疾病。

临床上为这类病人order全外显子或者全基因组测序，最后测序回来report，最终成功率只有25%~50%以内。

对这么简单病因疾病，我们都没有办法进行全面诊断，主要原因在于很多突变都非常深层，是隐性突变，并不直接作用于编码蛋白，或基因组层面，而是转录组层面。

例如，它可能引发某些异常转录本出现，或者正常转录本异常表达量等情况出现，这种信号往往会由于人体NMD机制，变得非常微弱。

因此，如果想从序列测序数据中发现这种异常转录本，或者正常转录本异常表达，就需要敏感度非常高的算法。

我们也研发了一些基于转录本的疾病诊断方法，通过跟沙特临床医生合作，诊断之前悬而未解的罕见遗传疾病。

例如去年我们第一个study就诊断了一个小头侏儒症个体，这个人有脑白质疏松以及智力发育迟缓，最终发现，他在基因区间有一个38bp大小的deletion。

我们第二个study也研究了4个不同family，这4个家族同时具有发育迟缓、小头侏儒症以及面部畸形，在他们SMG8基因当中，发现一个非常deep的致病突变。

除此之外，还有另一种解读基因组方式，通过理解regulatorycode（调控代码），由于基因组里有非常多调控元件，即使在编码区域，也有几种最常见的调控机理，从起始出发，由转录起始位点调控；从结尾出发，由多聚腺苷酸加尾，也就是polyA。

如果只盯着最浅显方式，也许有几十个方式，但现在所有方法都没有办法对任意PolyA位点进行同时建模。

所以，我们从去年提出了DeeReCT工具，它结合了CNN和RNN的优点，从而得到自适应模型，对任意PolyA位点进行同时建模，以model这些位点之间竞争性。

我们把目光集中在多聚腺苷酸加尾，还研究了转录起始位点—TSS，研发了第一个基于深度学习的转录起始位点预测程序—DirectPeomID。

该方法与之前所有转录起始位点预测程序相比，除了采用深度学习框架，最大区别就是在比较平衡的正负数据集上的二分类问题。

当把这些训练好模型应用到全基因组扫描时，就会发现他们的假阳性率非常高，甚至高到无法实际使用，而这种循环迭代负样本增强想法，能够非常有效降低全基因组扫描假阳性率。

目前为止，DirectPeomID还是唯一一个可以在全基因组层面预测转录起始位点的工具。除此之外，我们还做了各种后续工具，这些都是沿着调节代码方向来操作。

问答环节

Q1：目前AI新药研发有没有已经研发出的药物以及应用的案例？

高欣：这里如果把已经研发出来定义为获批上市，据我所知，目前AI研发的新药还没有获批上市的先例。

但已经有非常多AI研发或AI辅助研发药物在各期、不同临床实验当中。

此外，新药和研发这两个词，还有着不同的解读。

第一种解读，是为已知靶点，寻找之前不知道的化合物或药物分子。

第二种，是为已知药找新适应症，也就是老药新用。

第三种，是完全从0开始，设计之前没有的小分子或大分子药物。

事实上，各种不同解读情况当中，AI已经做出非常喜人的成果和进展。

例如从零开始药物设计上，就有非常出名的案例，MIT的JamesCollinslab就研发了一种从0开始的抗生素药物设计。

这种抗生素，在试验中已经展现出非常好的抗细菌效果，能够杀死一些已知抗生素没有办法清除的细菌。

此外，其它药物也有各种各样例子，国外制药企业和国内AI药物研发企业都有药物在临床实验当中。

高欣：这要回归到AI药物研发根本，这是一个系统性学科，需要涉及到生物医疗的方方面面。

Q3：NLP（自然语言处理）对于AI药物研发的用处有哪些？

高欣：NLP是深度学习最成功应用的两大领域之一。所谓AI药物研发，很大程度是指深度学习赋能药物研发。也就是NLP在AI药物研发过程当中占到至关重要的作用。

这里给大家列举两个经典案例：

第一，NLP被大量地用于知识图谱研发。

第二，NLP被大量用于各种各样蛋白质分子或DNA分子模型预训练，这些预训练模型被证明能够非常有效提取生物分子特征，并且服务各种下游。

例如AlphaFold2，应该就是基于某种蛋白质预训练模型，或protein的transformers，所以NLP技术在AI药物研发用处非常大。

Q4：百图生科的研发中是否用到药物研发知识图谱，规模有多大，数据源哪些，质量如何保证及评估。

高欣：这是非常好的问题。药物研发知识图谱取决于靶向疾病、靶向靶点，或者药物搜索空间到底有多大，它会有相应规模，这种知识图谱质量应该如何评估？

首先尽量确保数据和信息准确，一个是数据源是否可靠，再就是数据源手工校准，或者各种各样清洗、预处理是否合理，最后，还要看下游预测结果是否和先验知识吻合。

Q5：药物研发过程中，除了发现新的适应症，如何进行临床疗效评价？

高欣：药物进入临床疗效评价已经是非常后期的任务。

最后就是临床前实验，例如在湿实验室进行实验，或者在IPS细胞当中进行实验，或者类器官当中进行实验，或者是动物实验。

Q6：AI发现新适应症有几种方法？各自的优缺点是什么？

高欣：这是一种非常泛的问题，AI发现新适应症，就是一个非常大的问题，基本能想到的所有方法都可以被应用这个领域。

例如基于知识图谱方法、基于三维结构方法，基于多组学分析的方法，基于分子动力学模拟的方法，很难准确界定AI发现新适应症有几种方法。

Q7：在算法设计过程中，应如何与药学家进行合作，用先验知识指导算法设计，从而使算法效率更高、结果更加安全科学？

高欣：这是一个非常好的问题，涉及所有交叉领域。不光是与药学家合作，与地质学家合作、生物学家合作、植物学家合作、海洋学家合作、化学家合作等等都将面临这个问题。

这个问题最好要找到互相之间的共同语言、尊重对方专业、认可对方专业、对自己专业重要程度有良好认识合作者，然后与这些合作者进行密切的、闭环式交流与合作，有反馈合作才是成功代表。

如果只是单纯输出给另一方，没有反馈，那么这种合作注定不会成功，也不会安全。

在AI制药中就是指药学家的先验知识到底是什么，并且把他的先验知识给进行结构化，进行政策化。

把他的先验知识很好融合到数学模型和AI模型当中，然后再用预测结果去提供给药学家，让它进行甄别，让他给更下一步反馈意见，进行所谓的强化学习，

往返的闭环，才能使算法效率更高，结果更加安全和科学。

Q8：AI药物研发所用到的外部计算软件哪些是主流？还是自己开发计算软件？

高欣：这同样是个好问题，涉及到很多做生物信息或者计算生物学的人。

大家知道计算生物学和生物信息的科学家们，本身并不开发新计算软件，但他们熟知现有所有软件、包、库。

如果他们拿到新数据和新问题，可以非常熟练把现有方法应用到问题上，然后选择表现性能最好方法。

此外，还有另一类生物信息学家，他们并不满足于这种现有方法，而是希望测试所有现有方法，当现有方法能够很好解决这些问题的时候，他们才不再研发新方法。

否则他们会总结现有方法的优缺点，然后有的放矢地设计和开发自己的计算软件，针对性地解决问题，而且能够overcome这些现有外部计算方法共同约束和限制。

目前，两种不同类型的研发和科研理念，都有非常成功的例子，没有一概而论的答案。

Q9：AI开发的候选药，比传统方法开发临床实验成功率会有多大提升？

高欣：具体有多大提升，取决于具体例子，也是一个case-by-case的答案。

对于某些疾病、某些靶点，可能把5%提高到30%，有些则可以把5%提高到10%。无论如何都是一个非常好的进展。

大家随便上网就会发现，国内AI药企，已经可以把新药研发周期缩短到12~18个月，开发费用缩小到百万美元量级，这已经是飞跃式的进展。如果最后临床实验证明安全有效，这些药物可以获批上市将是一个非常好的应用案例。

Q10：目前AI药物研发是否主要基于分子结构？基于基因组数据的Ai药物研发，当前研究进展和未来发展如何？

高欣：首先，基于分子结构，只是非常多元信息当中的一员而已。那么主要基于分子结构的这种药物研发，例如薛定谔，他们可能是主要基于分子结构来进行AI药物研发。

但很多其他公司，完全是基于基因组数据，或者主要基于基因组数据来进行药物研发，例如加拿大DeepGenomics，他们都是基于大规模组学数据，影像数据进行AI药物研发。

Q11：AI药物研发的后续开发路径，后续可能形成的商业化的形式是什么？与bigpharma合作更多的在药物方面深入，还是受到药企的委托去做外包服务的方式感觉会往either是一个药企or一个CRO公司方向发展？

高欣：这是和商业计划有关问题，对于集中在某一个局部痛点的AI药物研发公司来说，它们主要商业模式可能是与药企进行密切合作，为药企某一步或整个平台进行赋能。

而百图生科希望的就是和这些AI药物研发公司形成互补，一同做风险更高、未来期待收益更高大规模端到端内部闭环药物开发模式。

这不光是某些AI算法调参或局部优化，更希望有一个端到端的AI工程化和AI智能化研发，同时赋予inhouse生物技术以及高通量生物数据，形成内部资产闭环。

最后感谢大家提出这些非常有建设性的问题，希望下次还有机会交流。雷锋网雷锋网

THE END

百图生科科学顾问高欣：自我否定二次创新，我为纳米孔测序提供了更可靠的AI工具万字长文dna测序靶点

DTW算法是什么常见问题

DTW

DynamicTimeWarping动态时间规整算法

量化专题·基于dtw距离的量价类策略研究

百图生科科学顾问高欣：自我否定二次创新，我为纳米孔测序提供了更可靠的AI工具万字长文dna测序靶点