(深入篇)漫游语音识别技术—带你走进语音识别技术的世界声网

上篇我们简单了解了语音识别技术的概念、前世今生以及基本识别原理,一会学长带着大家漫游到语音识别技术更深(更专业)的世界里。

通常我们可以认为声音是在空气中传播的波,但是它不像水波那样传播波的高低变化,它传播的是空气的密度变化。比如,我们拍手时手掌的振动将空气挤出,对比周围的大气压,空气被挤入的地方压力增高,而空气被挤出的地方则相对压力降低;压力高的部分向手掌四周移动,而压力低的部分则紧随其后。这种由手掌振动所引发空气密度发生周期性变化的波称为压缩波,空气中的压缩波一旦碰到鼓膜那样的薄膜,就会使其产生振动。麦克风的作用就是将这种振动以电信号的形式提取出来。下面的图大家可以参考一下

换句话说,声音以波的形式传播,即声波。当我们以波的视角来理解声音时,幅度(Magnitude)、频率(Frequency)、相位(Phase)便构成了声波及其所有的叠加声波,声音的不同音高(Pitch)、音量(Loudness)、音色(Timbre)也由这些基本单位组合而来。

世界上各种各样的声波都可以“降解”到基本波身上,傅里叶变换(FourierTransform)的基本思想也是这样的。不同的声波有不同的频率和幅度(决定音量),人耳也有自己的接受范围。人耳对频率的接受范围大致为20Hz至20kHz,于是以人为本地将更高频率的声波定义为超声波(UltrasoundWave)、更低频率的声波定义为次声波(InfrasoundWave),虽然其它动物可以听到不同范围的声音。

其中P(O|W)叫做声学模型,描述的是给定词W时声学观察为O的概率;P(W)叫做语言模型,负责计算某个词序列的概率;P(O)是观察序列的概率,是固定的,所以只看分母部分即可。

语音选择的基本单位是帧(Frame),一帧数据是由一小段语音经过ASR前端的声学特征提取模块产生的,整段语音就可以整理为以帧为单位的向量组。每帧的维度固定不变,但跨度可调,以适应不同的文本单位,比如音素、字、词、句子。

大多数语音识别的研究都是分别求取声学和语言模型,并把很多精力放在声学模型的改进上。但后来,基于深度学习和大数据的端到端(End-to-End)方法发展起来,能将声学和语言模型融为一体,直接计算P(W|O)。

在降噪之前,我先跟大家讲讲为什么要进行降噪处理?

下面我们来看几个降噪的常用方法:

小波变换降噪法简称小波降噪,一般在声音降噪中使用最多的是小波阈值降噪法,它主要是说在带噪声音信号中,有效声音信号与噪声在不同频率上有着不同的小波系数,其中有效信号能量谱表现会比较集中,在能量谱集中的区域小波系数的绝对值会比较大;而噪声的能量谱比较分散,所以其系数的绝对值比较小。接下来,根据此特点,利用小波变换法将带噪声音信号分解到不同频率上,然后设置阈值进行差分调整,保留有效声音信号的小波系数,最后根据小波重构算法还原带噪信号中的有效信号,从而可以达到降噪的效果。

含噪声信号的波形

小波降噪后的波形

自适应噪声抵消法的核心组成部分是自适应算法和自适应滤波器。自适应算法可以自动调节输入滤波器的加权系数使滤波器达到最优滤波效果,所以自适应噪声抵消法的关键是在于找到某种算法,可以实现自动调节加权系数。

数字滤波器作为数字信号处理中的重要组成部分,可以通过数值之间的运算来实现滤波的效果,去除噪声成分。数字滤波器有很多种类,根据冲激响应函数的时域特性数字滤波器可分为两种,即无限冲激响应(InfiniteImpulseResponse,IIR)滤波器和有限冲激响应(FiniteImpulseResponse,FIR)滤波器。这两种滤波器可分别实现低通、高通、带通和带阻4种功能。

预加重是一种在发送端对输入信号高频分量进行补偿的信号处理方式。随着信号速率的增加,信号在传输过程中受损很大,为了在接收终端能得到比较好的信号波形,就需要对受损的信号进行补偿,预加重技术的思想就是在传输线的始端增强信号的高频成分,以补偿高频分量在传输过程中的过大衰减。而预加重对噪声并没有影响,因此有效地提高了输出信噪比。(百科官方解释)

预加重原理:语音信号高频段能量大,低频段能量小。而鉴频器输出噪声的功率谱密度随频率的平方而增加(低频噪声大,高频噪声小),造成信号的低频信噪比很大,而高频信噪比明显不足,从而导致高频传输衰弱,使高频传输困难。因此,在传输之前把信号的高频部分进行加重,然后接收端再去重,提高信号传输质量。

汉明窗举例

matlab端点检测对比

常用方法:

短时过零率是指每帧声音信号通过零点的次数,其算法就是计算每帧声音信号幅值符号改变的总次数,如果相邻采样点的幅值符号是相同的,则没有发生过零点的情况,相反,如果相邻采样点幅值的符号发生了改变,那么表示声音信号发生了过零的情况。

短时能量一定程度上反应了声音信号的幅度变化,应用在区分声音信号中的清音和浊音,因为声音信号中清音的能量比浊音的能量小很多;区分无声片段和有声片段,因为无声片段的短时能量基本等于零,而有声片段是有能量存在的。

双门限端点检测法是常用的端点检测方法之一,其通过声音信号的短时能量和短时平均过零率确定声音信号的端点位置,短时过零率检测到声音信号的起始点和终止点可能过于宽泛,这样就降低了声音信号处理系统的速度;而短时能量检测到声音信号的起始点和终止点可能包含噪声信号,这样会导致提取的声音信号不太准确。所以将二者结合起来来检测猪声音信号的起始点和终止点,即双门限检测法提取声音信号的端点。

接下来带大家详细学习下MFCC特征提取知识:

先说下MFCC,人的耳朵在接收信号的时候,不同的频率会引起耳蜗不同部位的震动。耳蜗就像一个频谱仪,自动在做特征提取并进行语音信号的处理。在语音识别领域中MFCC(MelFrequencyCepstralCoefficents)特征提取是最常用的方法,具体来说,MFCC特征提取的步骤如下:

其中,前面两步是短时傅里叶变换,后面几步主要涉及到梅尔频谱。

基本流程图

大家需要重要掌握的特征提取知识点:

过零率(zerocrossingrate)是一个信号符号变化的比率,即在每帧中语音信号从正变为负或从负变为正的次数。这个特征已在语音识别和音乐信息检索领域得到广泛使用,通常对类似金属、摇滚等高冲击性的声音的具有更高的价值。一般情况下,过零率越大,频率近似越高。

频谱质心(SpectralCentroid)是描述音色属性的重要物理参数之一,是频率成分的重心,是在一定频率范围内通过能量加权平均的频率,其单位是Hz。它是声音信号的频率分布和能量分布的重要信息。在主观感知领域,谱质心描述了声音的明亮度,具有阴暗、低沉品质的声音倾向有较多低频内容,谱质心相对较低,具有明亮、欢快品质的多数集中在高频,谱质心相对较高。该参数常用于对乐器声色的分析研究。

声谱衰减(SpectralRoll-off)是对声音信号形状(波形图)的一种衡量,表示低于总频谱能量的指定百分比的频率。

梅尔频率倒谱系数(Mel-frequencycepstralcoefficients,MFCC)是在Mel标度频率域提取出来的倒谱参数,Mel标度描述了人耳频率的非线性特性。其中梅尔尺度(MelScale)是建立从人类的听觉感知的频率;比如若把音调频率从1000Hz提高到2000Hz,我们的耳朵只能觉察到频率似乎提高了一些而不是一倍。但是通过把频率转换成梅尔尺度,我们的特征就能够更好的匹配人类的听觉感知效果。

色度频率(ChromaFrequencies)色度频率是音乐音频有趣且强大的表示,其中整个频谱被投影到12个区间,代表音乐八度音的12个不同的半音。

在今天的主流语音识别系统中,声学模型是一个混合(hybrid)模型,它包括用于序列跳转的隐马尔可夫模型(HMM)和根据当前帧来预测状态的深度神经网络。

HMM涉及的主要内容有:两组序列(隐含状态和观测值),三种概率(初始状态概率,状态转移概率,发射概率),和三个基本问题(产生观测序列的概率计算,最佳隐含状态序列的解码,模型本身的训练),以及这三个问题的常用算法(前向或后向算法,Viterbi算法,EM算法)。语音识别的最终应用对应的是解码问题,而对语音识别系统的评估、使用也叫做解码(Decoding)。

在研究HMM之前,先带大家简单的回顾一下马尔科夫链。马尔科夫链是建模随机过程的一种方法,用天气来举个简单点的例子就是,今天是否下雨和前一天是否下雨有关,有一种关联的特点。放在语音识别里就是,我们能知道语音的频谱,但不知道之前的频谱代表什么意思的,就可以通过历史的频谱,来推导新的频谱的对应结果。

高斯混合模型(GMM,GaussianMixedModel),主要就是通过GMM来求得某一音素的概率。

在语音识别中,HMM用于建模subword级别(比如音素)的声学建模。通常我们使用3个状态的HMM来建模一个音素,它们分别表示音素的开始、中间和结束。

现在流行的语音系统不再使用GMM而是使用一个神经网络模型模型,它的输入是当前帧的特征向量(可能还要加上前后一些帧的特征),输出是每个音素的概率。比如我们有50个音素,每个音素有3个状态,那么神经网络的输出是50x3=150。这种声学模型叫做”混合”系统或者成为HMM-DNN系统,这有别于之前的HMM-GMM模型,但是HMM模型目前还在被使用。

语言模型要解决的问题是如何计算P(W),常用的方法基于n元语法(n-gramGrammar)或RNN。目前主要有n-gram语言模型和RNN语言模型。

n-gram语言模型是典型的的自回归模型,而RNN语言模型因为当前的结果依赖于之前的信息,所以可以使用单向循环神经网络进行建模,在这里感兴趣的自己再去学习下哈,内容实在太多了,学长挑重要的跟大家讲。

根据前面说的P(W|O),我们的最终目的是选择使得P(W|O)=P(O|W)P(W)最大的W,所以解码本质上是一个搜索问题,并可借助加权有限状态转换器(WeightedFiniteStateTransducer,WFST)统一进行最优路径搜索(先了解下)

CTC(连接时序分类,Connectionisttemporalclassification),CTC方法早在2006年就已提出并应用于语音识别,但真正大放异彩却是在2012年之后,随之各种CTC研究铺展开来。CTC仅仅只是一种损失函数,简而言之,输入是一个序列,输出也是一个序列,该损失函数欲使得模型输出的序列尽可能拟合目标序列。之前需要语音对齐到帧,用这个就可以不需要对齐,它只会关心预测输出的序列是否和真实的序列是否接近(相同)。

Attention模型看了很多概念还是觉得引用之前的例子最容易理解了:

讲完前面的语音识别必备知识,接下来咱们思考一下语音识别在语音聊天、音乐社交、视频直播,这些与“声音”有关的社交场景中应用越来越广的背景下,还会出现哪些问题呢,其中最突出的问题就是现有的语音内容审核+实时音视频服务,部署、调试、运维的成本高,而且很多方案对有背景音乐、噪声的音频识别效果差。

小王学长也是查看了许多应用解决方案,觉得声网Agora一站式智能语音识别方案是比较不错的,推荐给大家。肯定会有人问为什么你觉得好,好在哪里?

先说说现有传统方案,简单分为三步:

另一方面,目前的方案还需解决噪声的问题,例如语音社交、语音FM这些场景常常伴有背景音乐和环境噪声,会影响现有内容审核方案的识别率。

声网现已提供业界独有的一站式智能语音识别方案:

开发者只需要在应用中集成声网AgoraSDK,即可让音频在AgoraSD-RTN网络中实时传输的过程中完成语音内容识别与审核。并整合了业界Top3语音识别服务,通过声网独家研发的AI音频降噪引擎消除背景音,优化音频质量,让语音更加清晰。

声网语音识别方案的优势:

2、AI降噪,识别率更高:利用声网AI音频降噪引擎对音频进行优化,以提升语音的识别率。

3、语音交互低延时:声网SDK实现了全球端到端76ms的实时音视频低延时传输。声网AgoraSD-RTN实时通信网络采用私有UDP协议进行传输,基于软件定义优化路由选择最优传输路径,自动规避网络拥塞和骨干网络故障带来的影响。

所以说,看完声网与传统解决方案的优缺点对比是不是觉得声网的一站式解决方案很香!!!

除此之外,再跟大家推荐一个好用的工具-声网Agora的工具水晶球

特点:1.自建监控

2.集成多种RTC监控工具

3.使用同一RTC服务商所提供的质量调查工具

小王学长用心总结(抓紧收藏)

小王学长用心总结(抓紧收藏哈)

(小伙伴们看完记得点赞收藏下哈,小王学长希望能帮助到大家~)

THE END
1.多方AI开放平台语音识别 语音合成 语音拓展 场景方案 一句话识别 对60s内的语音指令实时转写识别。 实时语音转写 实时的转写输入的语音,不限时间。 录音文件转写 录制的语音文件进行非实时的转写处理。 自学习平台 通过本工具可有效提高专有领域场景下 的语音识别准确率,达到定制训练、自 助优化的效果。 http://www.duofangai.com/
2.国家税务总局吉林省税务局需求公示国家税务总局吉林省税务局供应商需要为提升12366智能语音机器人训练提供专业的知识训练平台,以方便用户对12366智能机器人的训练。 在服务期限内提供持续调优服务,包括语音识别模型优化和知识训练服务。 5.4.1. 语音识别优化 ▲语音识别产品在本地化部署时,因地域口音差异、口语化表述、专业化知识、多样化场景应用等原因,会对语音识别识别率产生较http://jilin.chinatax.gov.cn/art/2024/11/18/art_22893_833195.html
3.国家级大学生创新训练计划平台基于长短期记忆神经网络的NAO机器人语音识别平台 项目类型: 创新训练项目 项目类别: 重点支持领域: 所属学校: 东北林业大学 项目实施时间: 2020-06-22 至 2021-06-22 所属学科门类: 工学 所属专业大类: 计算机类 立项时间: 2020-09-02 项目成员: 姓名是否主持人 刘尧予 第一主持人 年级 *http://gjcxcy.bjtu.edu.cn/NewLXItemListForStudentDetail.aspx?IsLXItem=1&ItemNo=561867
4.思必驰会话精灵智能语音训练平台会话精灵基于思必驰全链路智能语音语言技术,启发式智能交互技术,AI模型规模化定制调优技术等,为政企客户提供语音识别,语音合成,对话式数字员工,服务数字化和AI赋能等产品及解决方案,助力客户快速实现服务智能化升级.https://www.tgenie.cn/intelligentSpeechTraining
5.大数据可视化开题报告mob6454cc6caa80的技术博客本实训室的主要目的是培养大数据平台运维项目的实践能力,以数据计算、分析、挖掘和可视化的案例训练为辅助。同时,实训室也承担相关考评员与讲师培训考试、学生认证培训考试、社会人员认证培训考试、大数据技能大赛训练、大数据专业课程改革等多项任务。 实训室旨在培养德智体全面发展、遵纪守法、掌握大数据平台运维基本技能、具https://blog.51cto.com/u_16099244/11956042
6.打造智能语音客服的技巧与思路文章简述:本文介绍制作电话人工智能客服的方法,包括技巧与思路。首先需要确定客服的应用场景和服务需求,然后选择合适的语音合成技术和语音识别技术,搭建语音平台并进行数据训练,最后测试和优化客服系统以提高用户体验。 一、确定客服的应用场景和服务需求 在制作电话人工智能客服之前,需要先确定客服服务的应用场景和服务需求。https://www.huayunworld.com/content/1227
7.听说100app下载听说100口语训练平台v2.24.601安卓版听说100 app是一款好用的英语口语学习训练平台,使用专业口语智能评测训练内容,打开软件,选择难度,听一边朗读,马上复读出来,实时的语音识别系统帮助你快速找到自己口语发音的弱点,快速修正你的口语,有需要的朋友欢迎下载体验。 官方介绍: 听说100是深圳课后帮科技有限公司研发的中小学全学科智能化教学平台,分为教师端和学https://www.qqtn.com/azsoft/566535.html
8.语音开源代码与平台Sphinx包括一系列的语音识别器和声学模型训练工具,使用了固定的HMM模型(中科院声学所也曾经引领了HMM国内潮流),被称为第一个高性能的连续语音识别系统。Sphinx的发展也很快,现在Sphinx-4已经完全用Java语言改写,很适合嵌入到Android平台。另外,笔者这里还要强调下李开复先生对Sphinx的贡献,虽然争论很多。https://www.jianshu.com/p/532745af477d
9.飞桨PaddlePaddleDeepSpeech2是一个采用PaddlePaddle平台的端到端自动语音识别(ASR)引擎的开源项目,具体原理参考这篇论文Baidu's Deep Speech 2 paper。 我们的愿景是为语音识别在工业应用和学术研究上,提供易于使用、高效和可扩展的工具,包括训练,推理,测试模块,以及 demo 部署。同时,我们还将发布一些预训练好的英语和普通话模型。 https://www.paddlepaddle.org.cn/modelbasedetail/DeepSpeech2
10.“录音啦”多终端语音识别平台?Whisper为何识别率如此准确?Whisper采用68万个小时,多语音和多任务监督数据来对其进行训练。 开源技术 Whisper采用开源代码,代码透明,您可以基于原始模型编程 在线编辑 支持识别文字在线编辑、下载、音频播放 快速转写 多台GPU服务器采用阵列技术,快速获得转写结果 免费服务 录音啦会员免费在线转写平台,不绑定电脑、不https://www.luyinla.net/
11.大语言模型训练平台2.智能问答:大语言模型训练平台可以应用于智能问答领域,通过对大量问答数据进行训练,实现对用户提问的实时理解和回答。例如,在搜索引擎中,问答系统可以利用大语言模型训练平台,快速、准确地回答用户的查询问题。 3.语音识别:大语言模型训练平台可以应用于语音识别领域,通过对大量语音数据进行训练,实现对语音信号的实时理解https://marketplace.huaweicloud.com/article/1-a37b30f4b6bc163f60f11b4dd47a86b0
12.资源终端与人工智能教学训练平台方案.docx通过智能故障识别算法对网络数据进行分析,精准展现网络实时状态,并能及时有效地定界故障以及定位故障发生原因,发现影响用户体验的网络问题,精准保障用户体验 11.业务口防雷可达10KV 12.使用非工业级光模块情况下的长期工作环境温度范围:-5℃~50℃ 13.长期工作环境相对湿度为5%~95%,非凝露人工智能教学训练平台一、人工https://max.book118.com/html/2022/0721/5220301242004311.shtm
13.语音自学习平台定制语言模型语音识别数据智能阿里云语音自学习平台提供“开箱即用”语音识别效果优化能力,支持热词、语言模型等全流程的识别效果优化功能,让合作伙伴自主、自助定制出垂直领域语音识别模型https://www.aliyun.com/product/ai/nls/lmlearning
14.人工智能训练平台提供容器化与虚拟化计算资源,利用分布式计算优势,提高模型训练效率。 立即体验 工业智能平台,开放智慧企业ET大脑服务能力 文本处理 图像技术 数据智能 自然语言处理 汽车车牌识别模型 通过对图片中的车牌进行识别,输出车牌的类型以及车牌号。用于识别蓝牌、黄牌、新能源车牌、教练车牌、白色警用车牌、武警车牌等。 https://ei.casicloud.com/
15.直播主播技能训练平台北京博导前程信息技术股份有限公司博星卓越直播主播技能训练平台遵循直播主播岗位工作开展所需基础技能和场景综合业务应用能力,依照学生学习规律进行系统设计。采用AI智能语音识别、图像识别、表情识别等技术,打造智能互动直播间。构建多类目、多主体实践情境,再现直播开展前、开展中、开展后不同阶段下主播岗位典型工作任务开展,包含直播策划、直播话术梳理、直https://www.shixunshi.com/product/id/27
16.数据大模型训练平台星环科技为您提供数据大模型训练平台相关内容,帮助您快速了解数据大模型训练平台。如果想了解更多数据大模型训练平台资讯,请访问星环科技官网(www.transwarp.cn)查看更多丰富数据大模型训练平台内容。https://www.transwarp.cn/keyword-detail/64746-1
17.百度智能云语音识别技术百度智能云语音识别技术-EasyDL语音自训练平台STEP4模型使用:上线通过的模型,在【我的模型】可以点击“模型调用”,查看如何使用模型 也可以在左侧导航栏中点击【模型调用】https://topyun.vip/help/article/2050.html
18.构建自动语音识别(EduCoder)是信息技术类实践教学平台。(EduCoder)涵盖了计算机、大数据、云计算、人工智能、软件工程、物联网等专业课程。超60000个实训案例,建立学、练、评、测一体化实验环境。https://trustie.educoder.net/shixuns/xlfbjmko/
19.基于Arduino的语音识别与控制系统实现AET本系统设计选用了中文语音识别芯片LD3320,通过将待识别的内容设置成关键词列表,能实现不需要用户事先录音和训练的非特定人语音识别[5]。 2 系统设计 2.1 系统硬件平台搭建 本文设计的基于Arduino的语音识别及控制系统,是一个建立在语音识别技术基础上,并在Arduino核心处理器的控制下对输入的语音命令做出特定输出响应的http://www.chinaaet.com/article/3000015511