百图生科科学顾问高欣:自我否定二次创新,我为纳米孔测序提供了更可靠的AI工具万字长文dna测序靶点

“接下来,生物计算将成为百度重点发力的关键领域之一,在这一赛道的投入上,百度只有尽力,没有尽头。“

这是近期,李彦宏在首届生物计算大会上的一段豪言壮语。

作为此次论坛的开场报告嘉宾,百图生科科学顾问、沙特阿卜杜拉国王科技大学教授,高欣以《更精准的生物医学及基因组学》为题,进行了演讲。

这些问题也在日后的研究中逐步被优化和改进。

以下是演讲全部内容,雷锋网做了不改变原意的整理和编辑:

这一漫长流程由多个步骤组成的,从最开始靶点识别,到先导化合物发现、先导化合物优化、临床前动物实验、多期临床实验。

整个流程当中,任何一个步骤出现失败,都导致整个流程以失败而告终,整个药物发现流程成功率非常之低,只有不到5%。

而且在这些步骤中,晚期发现失败消耗的代价,要远远大于早期失败。因此,早期步骤成功率在整个流程至关重要。

长读长测序:基因组数据的抽提利器

我想谈的是,如何通过第三代测序技术,更快、更准确得到基因组数据,得到基因组数据之后,如何更好解读基因组数据,以求发现更好的药物靶点。

今天我主要集中在第一步,介绍我的课题组工作,即时DNA测序方面成果。

现代医学大多都是基于基因组诊断,人共有30亿对碱基,这些碱基都是非常长的基因组序列。

大家可以把它理解成一本非常厚的字典,每个人都有一个模板。抄写这本字典的时候,就无法避免犯一些错误,例如插入、删除、错别字等等。

绝大部分错误不会导致严重后果,但如果在一些关键位置抄写错误,就会导致罕见遗传疾病。基因组诊断就是要把这些抄写错误和罕见遗传疾病相互关联起来,做到这一点,就要知道错误发生地点。

因为生物技术所限,我们没有办法通读整个字典,只能把字典拆分成一页一页,或一段一段分别解读,最后整合起来。

这是一件非常难的任务,就好像是很出名的变形艺术—metamorphosis。

基于这种metamorphosis变形艺术设计拼图游戏,就会发现拼图游戏非常难,因为所有piece都高度相似,没有任何两块完全一致。

因此,大家想出各种办法克服技术上难点,其中一个直观办法就是把拼图块从小块变成大块,所谓长读长DNA测序。

长读长DNA测序,主要有两种技术:PacBio和纳米孔。

纳米孔相对于其它测序技术来说,主要有几大优势:

第二,测序长度非常长,可以读长有大约10k到100k这么长,相对于二代测序100~200bp长度,已经是很长的读长长度,因此可以很好处理大结构变异,以及DNA中的repeat;

第三,纳米孔测序不需要进行PCR扩增。

既然有好的地方,就一定有坏的地方,纳米孔有这么多技术上优势,主要劣势就是测序精度。

例如R9Flowcell,测序精度只有85%左右;即使最新R10,官方精度也只有95%左右,相比于二代测序99%精度,这个确实非常低。

数据处理:纳米孔测序的长期瓶颈

测序精度低除了设备上局限性,纳米孔数据分析也是非常难的任务。

在此,我简单介绍一下纳米孔工作原理,纳米孔当中有一个膜,膜上有一些穿膜蛋白,即membraneprotein。

对于计算机同学来说,解码是一个非常经典的任务,有很多现成算法,但纳米孔解码和传统解码完全不同,主要有几大技术难点:

第一,电流测量范围小。1024种不同5mer,它们之间平均误差已经小于电流之间测量误差,直接做解码,就会有很多不确定性。

第二,DNA序列并不匀速通过,有的时候很快,有的时候很慢。但电流是以恒定频率被测量,因此在电流中,有的5mer会被测两次,有的5mer会被测200次,平均一个5mer大约被测10次左右。

第三,信号联配困难,DNA读长大约有1万到10万这么长,原始电信号长度又是DNA读长10倍左右,也就是10万到100万这么长。

纳米孔测序数据分析是一个非常难的任务,我的课题组过去三年里,已经研发端到端计算平台用于处理纳米孔测序数据分析等关键问题。

WaveNano:纳米孔测序的解码框架

预测完两种标签概率之后,我们就可以通过概率引导Viterbi解码算法,解码出DNA读长序列,整个流程最重要的就是“如何为监督式学习准备训练数据”。

但原始电信号序列非常长,没有人会手工标注这些标签,只能自己进行数据标注,找到原始电信号和DNA读长之间最优联配。

大家可以把它理解成动态规划的变种,动态规划没有空位罚分(GapPenalty)的情况下的变种。因为它的电流序列长度是DNA序列长度10倍,因此一旦gappenalty,gappenalty就会占据主导位置,最后联配不会好,因此就需要采用没有罚分项动态规划变种,就是DTW算法。

简单给大家展示一下DTW算法性能,和官方basecalling、Metrichor和Albacore等方法进行对比。

因为其它两个程序并不开源,不知道训练数据情况,这个比较可能还不公平,尚且无法断言,我们的算法basecalling要比官方的好。但从这个表格至少可以发现,WaveNano工具非常不错。

问题溯源:两大思路继续精细化

但我对WaveNano其实并不满意,为什么?

首先,我更感兴趣的是现有问题,是为挑战性问题量身打造的新算法,不是简单应用市面上已有深度学习框架。

其次,这个问题还有两个限制:

第一个限制,训练数据准确度不可控。对于监督式学习模型,如果训练数据质量不好,或标注不好,最终无论算法多么强大,训练出的模型一定不好。

而刚才训练的模型,都是自己联配得来的训练数据,完全不知道离真正groundtruth相差多远。

因此,做出这些研究之后,作为一个计算机学家,我问了自己两个问题:

1.自己有没有可能得到更可控、质量更好的标注数据,用于训练监督式学习模型?

接下来,介绍一下两个问题的解决方式:

其实深度学习经常会出现数据量不够,或者标注数据量不够的情况。

这种情况下,大家经常会使用模拟器,例如AlphaGo就大量使用模拟器模拟非常多的围棋对弈。

纳米孔训练上,我也想到了模拟器想法,虽然在此之前已经有若干纳米孔模拟器,但这些模拟都是DNA读长,没有任何人能够模拟原始电信号序列。

因此在三年前,我们提出了一个想法—Deepsimulator,它可以模拟纳米孔测序整个流程。

首先,主要通过给定基因组,随机把它打成一些DNA读长,并且保证这些DNA读长分布和真实数据读长分布保持一致。

其次,对于这些随机生成读长的每一个DNA,还要随机生成它的原始电信号序列,最后用basecaller,从原始电信号序列把DNA读长给呼叫回来。

因为自己的basecaller并不完美,所以call回来的DNA读长并不完美,自然会引入一些插入删除,以及一些variation。

但最终模拟器还是为业内人士提供大量训练数据,用于训练他们的解码器,被大家使用的频率非常多。

所以去年,我们又提出模拟器1.5版本。这里简单介绍一下其中的技术细节。

第一步,生成和实际数据读长长度分布一致的读长长度,为了达到这个目的,就需要对实际数据进行读长分布总结。

我们发现,实际纳米孔测序数据基本服从三个分布:指数分布、β分布和两个γ混合分布。

我们分别对三个分布进行参数估计,然后把选择权留给用户,用户选择按照哪一种分布去进行生成,最终发现生成的数据读长分布,和实际真实分布非常类似。

第二步,对随机产生的DNA读长生成原始电信号序列。为了这件事,我们又提出了新模型—深度典型事件规整(deepcanonicaltimewarping)。

它的想法是基于DNA读长和原始电信号,分别加入两个深度学习网络作为特征提取器,提取出来两个特征序列。

在模型训练过程中,我们可能需要训练整个网络,但测试阶段只需要使用其中部分,也就是从一个读长生成原始电信号序列。

因为每一个5mer都会平均被测到10次,所以还要对每一个真实5mer重复测量次数进行统计,统计匹配分布,使得数据5mer重复测量次数和真实数据达成一致。

我们分别在4个物种上进行了模拟器训练和测试。

简单给大家展示一下结果,通过这个图里所有对角线之的点,大家可以看到模拟器要远远好于现在市面上现有模拟器。

回到第二个问题,也就是如何更快进行DNA读长和原始电信号序列联配。

大家已经知道,原始电信号序列长度是DNA读长10倍,而DNA读长长度是1万-10万,原始电信号读长就是10万-100万。

尽管有非常多DTW算法变种已经被前人所发现,但所有这些方法都无法处理这么长、尺度相差这么大的两个序列联配。

基于motivation,我们提出了一种新算法—连续小波变换DTW,也就是CWDTW,它整合了三种不同idea,第一分层动态规整,第二粗化动态规整,第三受限动态规整。

在这里我列举一个案例,如果想对两个原始序列进行联配,但两个序列都特别长,没有办法直接联配,就需要通过连续小波变换把信号进行压缩和特征提取。

因为连续小波变换,在原始电信号特征提取层面已经被证明具有很强优势,所以通过连续小波变换,可以让原来序列长度变得非常短。

在短序列维度上,就可以进行最优DTW算法,找到联配路径,而其还可以从粗化连续小波变换维度,找到更细化维度,随后序列就会变长,同时还会把找到的联配路径,投影到更细化的分辨率上。

在投影过程当中,我的联配路径一定不会是最优,但假设联配路径是一个很好的出发点,假设成一个更好联配路径。

在这个路径的邻距范围,假设一个窗口大小,让算法这个窗口范围内找到更好的联配路径。

当然窗口大小也是算法重要参数之一,随着找到更好的联配路径,就可以把它再映射到更高分辨率维度上,随着整个过程的不断循环,就可以获取到最原始的维度。

这张图,比较了该算法和现有DTW算法性能差异,对角线上就是最优解,离对角线越近,说明找出来的联配路径离真实联配路径就越近。

大家看到红点就是FASTDTW,它离真实联配路径非常远,CWDTW基本上都能找到最优联配路径几乎一致的路径。

疾病嵌入:从基因数据到疾病表征

刚才介绍了通过AI方法以及高效算法,研发端到端即时DNA测序平台,我们不但要测DNA序列,还要解读DNA序列,以求发现更好的药物靶点。

在这方面,我们也做了很多工作,例如有了DNA序列之后,怎样发现每一个样本突变,怎么把它和疾病建立准确的关系。

为此,我们两年前提出了一个想法—“疾病的嵌入。”通过1.5亿美国人健康保险数据,把人类600多种所有疾病同时投影、嵌入到一个高维连续空间内。

这种嵌入一旦完成,就不需要再把疾病名字当成离散名词来使用,例如糖尿病、肝癌,大家不知道两个病之间关系是什么,更不存在定量关系。

疾病嵌入之后,每一个疾病都变成20维连续空间的一个向量,不但可以谈论疾病之间相似性,还可以谈论疾病之间不同点。

而且过去一个人同时得了多种疾病,也知道如何去表达,通过疾病嵌入只需要把这几种疾病向量相加到一起,或者加权到一起,就可以代表病人的diseasetree。

这是我们两年前的工作,证明当疾病嵌入空间向量为特征时候,可以在任何一个地方,例如丹麦、瑞典这种基因组学数据上估算遗传学参数。

此外,我们还从疾病的发病年龄中就发现,不同疾病的发病年龄有很强的模式,基本可以聚成5种不同类型疾病种类。

除了这些,疾病嵌入空间还可以重新做之前的基因组关联,也就是GWAS,同时对人类600种疾病进行基因关联。

我们在英国UKBiobank上,通过疾病嵌入特征空间,跟基因组突变空间进行新关联,就发现了116种非常强的关联信号。

这在之前GWAS研究都没有发现。而这116种强烈关联信号,很有可能作为新疾病药物靶点,同样的想法还可以应用到多模态同时嵌入,就是除了嵌入疾病还可以做药物和疾病关联嵌入。

这样疾病可以作为正则项来影响药物嵌入,反过来药物也可以作为正则项来影响疾病嵌入,不但可以嵌入疾病和药物,还可以嵌入他们之间的关系,更好发现新靶点,以及疾病潜在药物。

深度解码:罕见遗传病的隐性秘密

有了基因组之后,还可以找一些更隐性、更深的致病突变。例如孟德尔疾病就是由某一突变或某一基因突变造成,这是人类了解最多的疾病。

临床上为这类病人order全外显子或者全基因组测序,最后测序回来report,最终成功率只有25%~50%以内。

对这么简单病因疾病,我们都没有办法进行全面诊断,主要原因在于很多突变都非常深层,是隐性突变,并不直接作用于编码蛋白,或基因组层面,而是转录组层面。

例如,它可能引发某些异常转录本出现,或者正常转录本异常表达量等情况出现,这种信号往往会由于人体NMD机制,变得非常微弱。

因此,如果想从序列测序数据中发现这种异常转录本,或者正常转录本异常表达,就需要敏感度非常高的算法。

我们也研发了一些基于转录本的疾病诊断方法,通过跟沙特临床医生合作,诊断之前悬而未解的罕见遗传疾病。

例如去年我们第一个study就诊断了一个小头侏儒症个体,这个人有脑白质疏松以及智力发育迟缓,最终发现,他在基因区间有一个38bp大小的deletion。

我们第二个study也研究了4个不同family,这4个家族同时具有发育迟缓、小头侏儒症以及面部畸形,在他们SMG8基因当中,发现一个非常deep的致病突变。

除此之外,还有另一种解读基因组方式,通过理解regulatorycode(调控代码),由于基因组里有非常多调控元件,即使在编码区域,也有几种最常见的调控机理,从起始出发,由转录起始位点调控;从结尾出发,由多聚腺苷酸加尾,也就是polyA。

如果只盯着最浅显方式,也许有几十个方式,但现在所有方法都没有办法对任意PolyA位点进行同时建模。

所以,我们从去年提出了DeeReCT工具,它结合了CNN和RNN的优点,从而得到自适应模型,对任意PolyA位点进行同时建模,以model这些位点之间竞争性。

我们把目光集中在多聚腺苷酸加尾,还研究了转录起始位点—TSS,研发了第一个基于深度学习的转录起始位点预测程序—DirectPeomID。

该方法与之前所有转录起始位点预测程序相比,除了采用深度学习框架,最大区别就是在比较平衡的正负数据集上的二分类问题。

当把这些训练好模型应用到全基因组扫描时,就会发现他们的假阳性率非常高,甚至高到无法实际使用,而这种循环迭代负样本增强想法,能够非常有效降低全基因组扫描假阳性率。

目前为止,DirectPeomID还是唯一一个可以在全基因组层面预测转录起始位点的工具。除此之外,我们还做了各种后续工具,这些都是沿着调节代码方向来操作。

问答环节

Q1:目前AI新药研发有没有已经研发出的药物以及应用的案例?

高欣:这里如果把已经研发出来定义为获批上市,据我所知,目前AI研发的新药还没有获批上市的先例。

但已经有非常多AI研发或AI辅助研发药物在各期、不同临床实验当中。

此外,新药和研发这两个词,还有着不同的解读。

第一种解读,是为已知靶点,寻找之前不知道的化合物或药物分子。

第二种,是为已知药找新适应症,也就是老药新用。

第三种,是完全从0开始,设计之前没有的小分子或大分子药物。

事实上,各种不同解读情况当中,AI已经做出非常喜人的成果和进展。

例如从零开始药物设计上,就有非常出名的案例,MIT的JamesCollinslab就研发了一种从0开始的抗生素药物设计。

这种抗生素,在试验中已经展现出非常好的抗细菌效果,能够杀死一些已知抗生素没有办法清除的细菌。

此外,其它药物也有各种各样例子,国外制药企业和国内AI药物研发企业都有药物在临床实验当中。

高欣:这要回归到AI药物研发根本,这是一个系统性学科,需要涉及到生物医疗的方方面面。

Q3:NLP(自然语言处理)对于AI药物研发的用处有哪些?

高欣:NLP是深度学习最成功应用的两大领域之一。所谓AI药物研发,很大程度是指深度学习赋能药物研发。也就是NLP在AI药物研发过程当中占到至关重要的作用。

这里给大家列举两个经典案例:

第一,NLP被大量地用于知识图谱研发。

第二,NLP被大量用于各种各样蛋白质分子或DNA分子模型预训练,这些预训练模型被证明能够非常有效提取生物分子特征,并且服务各种下游。

例如AlphaFold2,应该就是基于某种蛋白质预训练模型,或protein的transformers,所以NLP技术在AI药物研发用处非常大。

Q4:百图生科的研发中是否用到药物研发知识图谱,规模有多大,数据源哪些,质量如何保证及评估。

高欣:这是非常好的问题。药物研发知识图谱取决于靶向疾病、靶向靶点,或者药物搜索空间到底有多大,它会有相应规模,这种知识图谱质量应该如何评估?

首先尽量确保数据和信息准确,一个是数据源是否可靠,再就是数据源手工校准,或者各种各样清洗、预处理是否合理,最后,还要看下游预测结果是否和先验知识吻合。

Q5:药物研发过程中,除了发现新的适应症,如何进行临床疗效评价?

高欣:药物进入临床疗效评价已经是非常后期的任务。

最后就是临床前实验,例如在湿实验室进行实验,或者在IPS细胞当中进行实验,或者类器官当中进行实验,或者是动物实验。

Q6:AI发现新适应症有几种方法?各自的优缺点是什么?

高欣:这是一种非常泛的问题,AI发现新适应症,就是一个非常大的问题,基本能想到的所有方法都可以被应用这个领域。

例如基于知识图谱方法、基于三维结构方法,基于多组学分析的方法,基于分子动力学模拟的方法,很难准确界定AI发现新适应症有几种方法。

Q7:在算法设计过程中,应如何与药学家进行合作,用先验知识指导算法设计,从而使算法效率更高、结果更加安全科学?

高欣:这是一个非常好的问题,涉及所有交叉领域。不光是与药学家合作,与地质学家合作、生物学家合作、植物学家合作、海洋学家合作、化学家合作等等都将面临这个问题。

这个问题最好要找到互相之间的共同语言、尊重对方专业、认可对方专业、对自己专业重要程度有良好认识合作者,然后与这些合作者进行密切的、闭环式交流与合作,有反馈合作才是成功代表。

如果只是单纯输出给另一方,没有反馈,那么这种合作注定不会成功,也不会安全。

在AI制药中就是指药学家的先验知识到底是什么,并且把他的先验知识给进行结构化,进行政策化。

把他的先验知识很好融合到数学模型和AI模型当中,然后再用预测结果去提供给药学家,让它进行甄别,让他给更下一步反馈意见,进行所谓的强化学习,

往返的闭环,才能使算法效率更高,结果更加安全和科学。

Q8:AI药物研发所用到的外部计算软件哪些是主流?还是自己开发计算软件?

高欣:这同样是个好问题,涉及到很多做生物信息或者计算生物学的人。

大家知道计算生物学和生物信息的科学家们,本身并不开发新计算软件,但他们熟知现有所有软件、包、库。

如果他们拿到新数据和新问题,可以非常熟练把现有方法应用到问题上,然后选择表现性能最好方法。

此外,还有另一类生物信息学家,他们并不满足于这种现有方法,而是希望测试所有现有方法,当现有方法能够很好解决这些问题的时候,他们才不再研发新方法。

否则他们会总结现有方法的优缺点,然后有的放矢地设计和开发自己的计算软件,针对性地解决问题,而且能够overcome这些现有外部计算方法共同约束和限制。

目前,两种不同类型的研发和科研理念,都有非常成功的例子,没有一概而论的答案。

Q9:AI开发的候选药,比传统方法开发临床实验成功率会有多大提升?

高欣:具体有多大提升,取决于具体例子,也是一个case-by-case的答案。

对于某些疾病、某些靶点,可能把5%提高到30%,有些则可以把5%提高到10%。无论如何都是一个非常好的进展。

大家随便上网就会发现,国内AI药企,已经可以把新药研发周期缩短到12~18个月,开发费用缩小到百万美元量级,这已经是飞跃式的进展。如果最后临床实验证明安全有效,这些药物可以获批上市将是一个非常好的应用案例。

Q10:目前AI药物研发是否主要基于分子结构?基于基因组数据的Ai药物研发,当前研究进展和未来发展如何?

高欣:首先,基于分子结构,只是非常多元信息当中的一员而已。那么主要基于分子结构的这种药物研发,例如薛定谔,他们可能是主要基于分子结构来进行AI药物研发。

但很多其他公司,完全是基于基因组数据,或者主要基于基因组数据来进行药物研发,例如加拿大DeepGenomics,他们都是基于大规模组学数据,影像数据进行AI药物研发。

Q11:AI药物研发的后续开发路径,后续可能形成的商业化的形式是什么?与bigpharma合作更多的在药物方面深入,还是受到药企的委托去做外包服务的方式感觉会往either是一个药企or一个CRO公司方向发展?

高欣:这是和商业计划有关问题,对于集中在某一个局部痛点的AI药物研发公司来说,它们主要商业模式可能是与药企进行密切合作,为药企某一步或整个平台进行赋能。

而百图生科希望的就是和这些AI药物研发公司形成互补,一同做风险更高、未来期待收益更高大规模端到端内部闭环药物开发模式。

这不光是某些AI算法调参或局部优化,更希望有一个端到端的AI工程化和AI智能化研发,同时赋予inhouse生物技术以及高通量生物数据,形成内部资产闭环。

最后感谢大家提出这些非常有建设性的问题,希望下次还有机会交流。雷锋网雷锋网

THE END
1.基于matlab语音分帧+端点检测+pitch提取+DTW算法歌曲识别含Matlab?一、DTW简介 Dynamic Time Warping(DTW)诞生有一定的历史了(日本学者Itakura提出),它出现的目的也比较单纯,是一种衡量两个长度不同的时间序列的相似度的方法。应用也比较广,主要是在模板匹配中,比如说用在孤立词语音识别(识别两段语音是否表示同一个单词),手势识别,数据挖掘和信息检索等中。 1 概述 在大部分https://blog.csdn.net/TIQCmatlab/article/details/118229908
2.使用dtw算法实现多元时序分类python其实DTW算法更多应用于手势识别、语音信号处理等领域,但是在近年来,研究发现该算法在遥感时序数据处理方面,也具有一定的优势,例如不同的作物,虽然其NDVI时序曲线的变化趋势相同,但是不同地方播种时间会有所差异,而DTW算法刚好可以弥补这个差异,以达到更好的分类于提取效果。 https://blog.51cto.com/u_16213583/12833016
3.北京建筑大学科学技术发展研究院公示期内,任何单位或个人对公示项目持有异议的,请以书面形式实名向科发院提出。提出异议的个人或单位须在书面材料上签署真实姓名或加盖单位公章,并提供有效联系方式,否则不予受理。凡匿名、冒名和超出时限的异议不予受理。 联系人:刘杰、薛重华 电话:010-68322482 http://kfy.bucea.edu.cn/tzgg/804cec927de7409b94d355a66eceec5f.htm
4.DTW算法的python实现关于DTW算法 动态时间规整/规划(Dynamic Time Warping, DTW)是一个比较老的算法,大概在1970年左右被提出来,最早用于处理语音方面识别分类的问题。 这里有两篇我认为讲的很好的DTW算法详解,链接在此: 如果对DTW算法感兴趣可以去看一下~ https://www.cnblogs.com/Daringoo/p/4095508.html https://www.jianshu.com/p/05bee48cc6a2
5.机器学习中的动态时间规整(DTW)算法本文将深入探讨DTW算法的原理、应用及其在机器学习中的改进方向。一、DTW算法原理 动态时间规整算法最初在语音识别领域被提出和使用,其核心思想是通过弹性地拉伸或压缩时间序列来找到两个序列之间的最佳匹配。不同于传统的欧几里得距离或曼哈顿距离,DTW允许非线性的时间对齐,使得即便是在时间轴上有所偏移的序列也能够被https://baijiahao.baidu.com/s?id=1791385999101912537&wfr=spider&for=pc
6.时间序列挖掘DTW加速算法FastDTW简介园荐2019-03-09 19:02 ? DTW算法可以用来衡量两个时间序列的相似性,而且两个时间序列的长度可以不必相等。 DTW算法原理如图1所示,图中矩阵$dij$表示时间序列$A$时刻$i$和时间序列$B$时刻$j$的距离,DTW算法就是要从$(1,1)$到$(m,n)$找到一条路径使得累计$dij$最小。 图1:DTW算法示意图 ~宁静致https://recomm.cnblogs.com/blogpost/3029078
7.基于时间加权改进的LDTW算法【摘要】:在时间序列相似性度量研究中,动态时间弯曲(dynamic time warping, DTW)是最为常用的算法之一,但其存在病态对齐问题且未考虑时间属性影响。限制对齐路径长度DTW(DTW under limited warping path length, LDTW)和时间加权DTW(time-weighed DTW,TDTW)分别尝试解决上述两个问题中的一个,但未能同时解决DTW两https://www.cnki.com.cn/Article/CJFDTotal-JSYJ202204006.htm
8.一种基于DTW的符号化时间序列聚类算法2.领域:dtw算法 3.仿真效果:仿真效果可以参考博客同名文章《基于动态时间扭曲和dtw算法的时间序列模式匹配matlab仿真》 4.内容:基于动态时间扭曲和dtw算法的时间序列模式匹配matlab仿真。动态时间扭曲(Dynamic Time Warping,DTW)是一种在时间序列分析中广泛使用的算法,用于测量两个时间序列之间的相似性。DTW可以解决时间序https://www.iteye.com/resource/weixin_38697444-12974352
9.时序相似性计算:从DTW到FastDTW–标点符它可以有效地处理在时间轴上存在偏移、缩放和扭曲等变形的时间序列数据。DTW算法通过对两个时间序列进行动态规整,将它们按最优路径进行对齐,并计算它们之间的距离度量值。DTW算法被广泛应用于语音识别、图像识别、信号处理、生物信息学等领域。一个时间序列“扭曲”到一个示例如图所示:https://www.biaodianfu.com/dtw-fastdtw.html
10.基于异构平台的TWDTW遥感影像分类算法并行化研究本文基于不同异构平台实现了时间加权动态规整算法并行化。本文主要工作及创新点如下:(1)本文结合TWDTW算法的特性,对目标算法进行了粗粒度和细粒度两个层次的并行性分析,根据GPU(Graphic Processing Unit)的特点提出了一种基于CUDA的时间加权动态规整并行算法。首先利用GDAL重新组织遥感时间序列的数据结构,将三维的遥感时间https://wap.cnki.net/lunwen-1022079368.html
11.一种基于DTW的符号化时间序列聚类算法AET该算法用DTW算法计算时间序列间的相似度,而后从时间序列的相似度得到一个复杂网络,此复杂网络表示了时间序列相互间的关系。最后采用Normal矩阵的方法进行网络划分,得到一个网络的社团结构。从这个社团结构中已能看出样本时间序列的归属类别,但为了结果更加清晰,用具体数字来体现,所以采用了FCM聚类算法进行最后的聚类。实验http://m.chinaaet.com/article/164275
12.结合形状特征及其上下文的多维DTW传统动态时间规整算法(Dynamic Time Warping,DTW)及其变种算法被广泛应用于多维时间序列的相似性分析,但它们通常只关注单个时间点的信息而忽略了上下文信息,从而很可能匹配两个形状完全不同的点。因此提出一种结合形状特征及其上下文的多维DTW算法(Multi-Dimensional Contextual Dynamic Time Warping,MDC-DTW)。该算法首先计http://cea.ceaj.org/CN/abstract/abstract39164.shtml
13.一种提高拼音模糊匹配正确率的拼音相似度计算方法在计算汉语拼音的dtw相似度时,为了适应声母、韵母的发音特性,并在一定程度上解决dtw算法中可能出现的病态对齐现象,本专利对wk的计算加入了惩罚系数λ。当对声母部分计算dtw相似度时,对时间序列q,c的前3/5帧部分,取λ=1,后2/5帧部分取λ=0.7;当对韵母部分计算dtw相似度时,对时间序列q,c的前2/5帧部分,取λhttps://www.xjishu.com/zhuanli/21/202111593572.html
14.python利用不到一百行代码实现一个小siripython本文主要是实现了一个简单的命令词识别程序,算法核心一是提取音频特征,二是用DTW算法进行匹配。当然,这样的代码肯定不能用于商业化,大家做出来玩玩娱乐一下还是不错的。 设计思路 就算是个小东西,我们也要先明确思路再做。音频识别,困难不小,其中提取特征的难度在我听歌识曲那篇文章里能看得出来。而语音识别难度更https://www.jb51.net/article/107254.htm
15.基于TWDTW的黄河三角洲湿地植被分类研究本文探讨了该算法在黄河三角洲湿地植被分类中的适用性,并将分类结果与传统分类方法进行对比。研究表明,该算法在该区域总体分类精度为97.56%,Kappa系数为0.95。应用TWDTW算法可以有效进行湿地植被分类,能直观地反映湿地植被的空间分布格局,满足湿地生态环境监测、资源调查与管理等方面的需要。 Abstract: Wetland vegetationhttp://hanspub.org/journal/PaperInformation.aspx?paperID=53911
16.语音识别算法有哪些语音识别特征提取方法本文列举了几种不同的语音识别算法。 第一种:基于动态时间规整(Dynamic Time Warping)的算法 在连续语音识别中仍然是主流方法。 该方法的运算量较大,但技术上较简单,识别正确率高。 在小词汇量、孤立字(词)识别系统中,也已有许多改进的DTW算法被提出。例如,利用频率尺度的DTW算法进行孤立字(词)识别的方法。 https://maimai.cn/article/detail?fid=1702372928&efid=aZpEHKiwAAY2EeNJjy1P9A