本案是分案申请。该分案的母案是申请日为2013年12月23日、申请号为201380071333.7、发明名称为“用于线性预测译码中的自适应共振峰锐化的系统、方法、设备和计算机可读媒体”的发明专利申请案。
本申请案主张2013年1月29日申请的共同拥有的美国临时专利申请案第61/758,152号和2013年9月13日申请的美国非临时专利申请案第14/026,765号的优先权,所述专利申请案的内容以引用的方式明确地并入本文中。
本发明涉及音频信号的译码(例如,语音译码)。
背景技术:
线性预测(lp)分析-合成构架对于语音译码来说已经是成功的,因为其非常适合于用于语音合成的源系统范例。确切地说,当预测残差捕获声带的浊音、清音或混合激励行为时,通过全极点滤波器来模型化上声道的缓慢时变频谱特性。使用闭环合成分析过程来模型化和编码来自lp分析的预测残差。
在合成分析码激励线性预测(celp)系统中,选择导致输入语音与重构语音之间的最低观测“感知加权”均方误差(mse)的激励序列。感知加权滤波器使预测误差成形,使得量化噪声被高能共振峰所掩蔽掉。感知加权滤波器的作用是降低共振峰区域中的误差能量的重要性。这个降低重要性策略是基于在共振峰区域中量化噪声被语音所部分地掩蔽掉的事实。在celp译码中,从两个码本(即,自适应码本(acb)和固定码本(fcb))产生激励信号。acb向量表示过去激励信号的延迟(即,延迟了闭环音调值)段并促成整体激励的周期性分量。在捕获整体激励中的周期性贡献之后,执行固定码本搜索。fcb激励向量部分地表示激励信号中的剩余非周期性分量并且是使用交错、单式脉冲的代数码本而建构。在语音译码中,音调锐化技术和共振峰锐化技术提供了语音重构质量的显著改善(例如,在更低的比特率下)。
共振峰锐化可促成清晰语音中的显著质量增益;但是,在存在噪声的情况下且在低信噪比(snr)下,质量增益不大显著。这可能归因于共振峰锐化滤波器的不准确估计并且部分地归因于另外需要对噪声做出解释的源系统语音模型的某些局限性。在一些情况下,在存在带宽扩展(其中经变换的共振峰锐化低波段激励被用于高波段合成中)的情况下,语音质量的降级更为明显。确切地说,低波段激励的某些分量(例如,固定码本贡献)可经历音调锐化和/或共振峰锐化,以改善低波段合成的感知质量。将来自低波段的音调锐化和/或共振峰锐化激励用于高波段合成引起可听伪影的可能性可能高于改善整体语音重构质量的可能性。
附图说明
图1展示用于低比特率语音译码的码激励线性预测(celp)合成分析架构的示意图。
图2展示语音信号的帧的一个实例的快速傅里叶变换(fft)频谱和相对应的lpc频谱。
图3a展示根据一般配置的用于处理音频信号的方法m100的流程图。
图3b展示根据一般配置的用于处理音频信号的设备mf100的框图。
图3c展示根据一般配置的用于处理音频信号的设备a100的框图。
图3d展示方法m100的实施方案m120的流程图。
图3e展示设备mf100的实施方案mf120的框图。
图3f展示设备a100的实施方案a120的框图。
图4展示用于计算长期snr的伪码清单的实例。
图5展示用于根据长期snr来估计共振峰锐化因子的伪码清单的实例。
图6a到6c是γ2值对长期snr的实例图。
图7说明供自适应码本搜索的目标信号x(n)的产生。
图8展示fcb估计方法。
图9展示图8的方法的修改例以包含如本文中所描述的自适应共振峰锐化。
图10a展示根据一般配置的用于处理经编码音频信号的方法m200的流程图。
图10b展示根据一般配置的用于处理经编码音频信号的设备mf200的框图。
图10c展示根据一般配置的用于处理经编码音频信号的设备a200的框图。
图11a是说明经由网络nw10通信的发射终端102和接收终端104的实例的框图。
图11b展示音频编码器ae10的实施方案ae20的框图。
图12展示帧编码器fe10的基本实施方案fe20的框图。
图13a展示通信装置d10的框图。
图13b展示无线装置1102的框图。
图14展示手持机h100的正视图、后视图和侧视图。
具体实施方式
除非另有指示,否则使用术语“系列”来指示一连串两个或两个以上项目。使用术语“对数”来指示基数为十的对数,不过此类运算到其它基数的扩展是在本发明的范围内。使用术语“频率分量”来指示信号的一组频率或频带中的一者,例如信号的频域表示的样本(例如,如由快速傅里叶变换或mdct产生)或信号的子带(例如,巴克(bark)尺度或梅尔(mel)尺度子带)等。
除非另有指示,否则对具有特定特征的设备的操作的任何揭示内容还明确地欲揭示具有类似特征的方法(且反之亦然),且对根据特定配置的设备的操作的任何揭示内容还明确地欲揭示根据类似配置的方法(且反之亦然)。术语“配置”可参考如通过其特定上下文指示的方法、设备和/或系统来使用。除非特定上下文另有指示,否则术语“方法”、“过程”、“程序”及“技术”通用地且可互换地使用。具有多个子任务的“任务”也是方法。除非特定上下文另有指示,否则术语“设备”与“装置”也通用地且可互换地使用。术语“元件”和“模块”通常用来指示更大配置的一部分。除非通过其上下文明确地限制,否则在本文中使用术语“系统”来指示其一般含义中的任一者,包含“相互作用以用于共同目的的一群组元件”。术语“多个”意指“两个或两个以上”。文件的一部分以引用的方式进行的任何并入也应理解为并入了在所述部分内参考的术语或变量的定义,其中此些定义出现在文件中的其它地方,以及并入了在所并入部分中参考的任何图。
术语“译码器”、“编解码器”和“译码系统”可互换地使用以指代包含以下各者的系统:至少一个编码器,其经配置以接收和编码音频信号的帧(可能在例如感知加权和/或其它滤波操作等一或多个预处理操作之后);以及相对应的解码器,其经配置以产生帧的经解码表示。此类编码器和解码器通常部署于通信链路的相反终端处。为了支持全双工通信,编码器与解码器两者的例子通常部署于此类链路的每一端处。
除非另有指示,否则术语“声码器”、“音频译码器”和“语音译码器”是指音频编码器和相对应的音频解码器的组合。除非另有指示,否则术语“译码”指示音频信号凭借编解码器的转移,包含编码及后续解码。除非另有指示,否则术语“发射”指示传播(例如,信号)到发射信道中。
可应用如本文中所描述的译码方案以译码任何音频信号(例如,包含非语音音频)。替代地,可能需要将此类译码方案仅用于语音。在这种情况下,可将译码方案与分类方案一起使用,以确定音频信号的每一帧的内容的类型并选择合适的译码方案。
可将如本文中所描述的译码方案用作主要编解码器或用作多层或多级编解码器中的一个层或级。在一个此类实例中,此类译码方案用来译码音频信号的频率内容的一部分(例如,低波段或高波段),且另一译码方案用来译码信号的频率内容的另一部分。
线性预测(lp)分析-合成构架对于语音译码来说已经是成功的,因为其非常适合于用于语音合成的源系统范例。确切地说,当预测残差捕获声带的浊音、清音或混合激励行为时,通过全极点滤波器来模型化上声道的缓慢时变频谱特性。
可能需要使用闭环合成分析过程来模型化和编码来自lp分析的预测残差。在合成分析码激励lp(celp)系统(例如,如图1中所示)中,选择最小化输入语音与重构(或“合成”)语音之间的误差的激励序列。在此类系统中被最小化的误差可为例如感知加权均方误差(mse)。
图2展示语音信号的帧的一个实例的快速傅里叶变换(fft)频谱和相对应的lpc频谱。在此实例中,对应于声道中的共振的共振峰(标记为f1到f4)处的能量浓度在更平滑的lpc频谱中清晰可见。
可预期,共振峰区域中的语音能量将部分地掩蔽掉否则可能出现在那些区域中的噪声。因此,可能需要实施lp译码器以包含感知加权滤波器(pwf)从而使预测误差成形,使得归因于量化误差的噪声可被高能共振峰所掩蔽掉。
可根据例如下式等表达式来实施pwfw(z),所述pwfw(z)降低共振峰区域中的预测误差的能量的重要性(例如,使得可更准确地模型化超出那些区域的误差):
或
在celp译码中,从两个码本(即,自适应码本(acb)和固定码本(fcb))产生激励信号e(n)。可根据例如下式等表达式来产生激励信号e(n):
e(n)=gpv(n)+gcc(n),(2)
其中n是样本索引,gp和gc是acb增益和fcb增益,且v(n)和c(n)分别是acb向量和fcb向量。acb向量v(n)表示过去激励信号的延迟段(即,延迟了例如闭环音调值等音调值)并促成整体激励的周期性分量。fcb激励向量c(n)部分地表示激励信号中的剩余非周期性分量。在一个实例中,使用交错、单式脉冲的代数码本来建构向量c(n)。通过在gpv(n)中捕获整体激励中的周期性贡献之后执行固定码本搜索,可获得fcb向量c(n)。
如本文中所描述的方法、系统和设备可经配置以将音频信号处理为一系列段。典型段长度的范围为从约5或10毫秒到约40或50毫秒,且段可为重叠的(例如,与邻近段重叠达25%或50%)或非重叠的。在一个特定实例中,将音频信号划分成一系列非重叠段或“帧”,每一者的长度为10毫秒。在另一特定实例中,每一帧的长度为20毫秒。音频信号的取样率的实例包含(不限于)8、12、16、32、44.1、48和192千赫兹。可能需要此类方法、系统或设备在子帧的基础上更新lp分析(例如,每一帧划分成大小大致相等的2个、3个或4个子帧)。另外地或替代地,可能需要此类方法、系统或设备在子帧的基础上产生激励信号。
图1展示用于低比特率语音译码的码激励线性预测(celp)合成分析架构的示意图。在此图中,s是输入语音,s(n)是经预处理的语音,是重构语音,且a(z)是lp分析滤波器。
可能需要采用音调锐化和/或共振峰锐化技术,这样可提供对语音重构质量的显著改善(确切地说,在低比特率下)。通过在fcb搜索之前首先将音调锐化和共振峰锐化应用于加权合成滤波器的脉冲响应(例如,的脉冲响应,其中指代经量化的合成滤波器)且继而随后将锐化应用于如下文描述的所估计的fcb向量c(n),可实施此些技术。
1)可预期,acb向量v(n)不捕获信号s(n)中的全部音调能量,且将根据包含一些音调能量的余部来执行fcb搜索。因此,可能需要使用当前音调估计值(例如,闭环音调值)来锐化fcb向量中的相对应的分量。可使用例如下式等转移函数来执行音调锐化:
其中τ是基于当前音调估计值(例如,τ是舍入到最近整数值的闭环音调值)。使用此类音调预滤波器h1(z)来对所估计的fcb向量c(n)进行滤波。在fcb估计之前,也将滤波器h1(z)应用到加权合成滤波器的脉冲响应(例如,应用到的脉冲响应)。在另一实例中,滤波器h1(z)是基于自适应码本增益gp,例如在下式中:
(例如,如第3代合作伙伴计划2(3gpp2)文件c.s0014-ev1.0的部分4.12.4.14中所描述(2011年12月,阿灵顿,弗吉尼亚)),其中可用值[0.2,0.9]来对gp(0≤gp≤1)的值进行划界。
2)还可预期,将根据包含共振峰区域中的更多能量而不是为完全噪声类的余部来执行fcb搜索。可使用类似于如上文所描述的滤波器w(z)的感知加权滤波器来执行共振峰锐化(fs)。但是,在这种情况下,权重的值满足关系式0<γ1<γ2<1。在一个此类实例中,使用前馈权重的值γ1=0.75和反馈权重的γ2=0.9:
通过使用音调锐化和共振峰锐化可获得的语音重构质量方面的改善可直接取决于基础语音信号模型和对闭环音调τ与lp分析滤波器a(z)所作估计的准确度。基于几个大规模侦听测试,已用实验的方式验证:共振峰锐化可促成清晰语音中的重大质量增益。但是,在存在噪声的情况下,已一致地观测到某种程度的降级。由共振峰锐化造成的降级可归因于对fs滤波器的不准确估计和/或归因于另外需要考虑到噪声的源系统语音模型化中的局限性。
通过以下步骤,带宽扩展技术可用来将经解码窄带语音信号(具有例如从0、50、100、200、300或350赫兹到3、3.2、3.4、3.5、4、6.4或8khz的带宽)的带宽提高到高波段(例如,高达7、8、12、14、16或20khz):频谱地扩展窄带lpc滤波器系数以获得高波段lpc滤波器系数(替代地,通过将高波段lpc滤波器系数包含在经编码信号中),及频谱地扩展窄带激励信号(例如,使用例如绝对值或平方法等非线性函数)以获得高波段激励信号。不幸的是,在存在带宽扩展(其中此类经变换的低波段激励被用于高波段合成中)的情况下,由共振峰锐化造成的降级可更为严重。
可能需要保持清晰语音与嘈杂语音两者中归因于fs的质量改善。本文中描述一种用以自适应地改变共振峰锐化(fs)因子的方法。确切地说,当在存在噪声的情况下将不大积极的强调因子γ2用于共振峰锐化时,质量改善是显著的。
在实例实施例中,图3a中的任务t100还可包含确定其它中间因子,例如浊音化因子(例如,在0.8到1.0的范围中的浊音化值对应于重读浊音段;在0到0.2的范围中的浊音化值对应于弱读浊音段)、译码模式(例如,语音、音乐、静默、暂态帧或清音帧)和音调滞后等。这些辅助参数可结合平均snr或代替平均snr而被用来确定共振峰锐化因子。
还可实施任务t200以使用γ2值对长期snr的不同映射。此类映射可为分段地呈线性,其具有1、2或更多额外拐点和邻接拐点之间的不同斜率。此类映射的斜率对于更低的snr来说可更陡,且在更高snr下可更浅,如图6b的实例中所展示。替代地,此类映射可为非线性函数,例如γ2=k*fs_ltsnr^2或如图6c的实例中。
任务t300使用通过任务t200所产生的fs因子而将共振峰锐化滤波器应用于fcb激励。举例来说,可根据例如下式等表达式来实施共振峰锐化滤波器h2(z):
应注意,对于清晰语音来说且在存在高snr的情况下,γ2的值在图5中的实例中接近于0.9,从而导致积极共振峰锐化。在约为10到15db的低snr中,γ2的值大约是0.75到0.78,从而导致无共振峰锐化或不大积极的共振峰锐化。
图3d展示方法m100的实施方案m120的流程图,所述实施方案m120包含任务t220和t240。任务t220将基于所确定的fs因子的滤波器(例如,如本文中所描述的共振峰锐化滤波器)应用到合成滤波器(例如,如本文中所描述的加权合成滤波器)的脉冲响应。任务t240选择fcb向量(对所述fcb向量执行任务t300)。举例来说,任务t240可经配置以执行码本搜索(例如,如在本文中的图8中和/或在3gppts26.190v11.0.0的部分5.8中所描述)。
图3e展示设备mf100的实施方案mf120的框图,所述实施方案mf120包含用于将基于所计算的fs因子的滤波器应用到合成滤波器的脉冲响应的装置f220(例如,如本文中参考任务t220所描述)。设备mf120还包含用于选择fcb向量的装置f240(例如,如本文中参考任务t240所描述)。
图3f展示设备a100的实施方案a120的框图,其中滤波器300经布置以对合成滤波器的脉冲响应进行滤波(例如,如本文中参考任务t220所描述)。设备a120还包含经配置以选择fcb向量的码本搜索模块240(例如,如本文中参考任务t240所描述)。
图7和8展示fcb估计方法的额外细节,所述方法可经修改以包含如本文中所描述的自适应共振峰锐化。图7说明通过将加权合成滤波器应用到预测误差来产生供自适应码本搜索的目标信号x(n),所述预测误差是基于经预处理的语音信号s(n)和在先前子帧结束时获得的激励信号。
在图8中,将加权合成滤波器的脉冲响应h(n)与acb向量v(n)进行卷积以产生acb分量y(n)。用gp对acb分量y(n)进行加权以产生acb贡献,从目标信号x(n)减去所述acb贡献以产生供fcb搜索的经修改的目标信号x′(n),可执行所述fcb搜索,例如以找到fcb脉冲中最大化图8中所示的搜索项的索引位置k(例如,如ts26.190v11.0.0的部分5.8.3中所描述)。
图9展示图8中所示的fcb估计程序的修改例以包含如本文中所描述的自适应性共振峰锐化。在这种情况下,将滤波器h1(z)和h2(z)应用到加权合成滤波器的脉冲响应h(n)以产生经修改的h′(n)。在搜索之后,这些滤波器还被应用到fcb(或“代数码本”)向量。
发射终端102包含音频编码器ae10,且接收终端104包含音频解码器ad10。可实施音频编码器ae10以执行如本文中所描述的方法,所述ae10可通过根据人语音产生的模型提取参数值而被用来压缩来自第一用户接口ui10(例如,麦克风和音频前端)的音频信息(例如,语音)。信道编码器ce10将参数值汇编到包中,且发射器tx10经由网络nw10凭借发射信道tc10来发射包含这些参数值的包,所述网络nw10可包含例如因特网或企业内部网络等基于包的网络。发射信道tc10可为有线和/或无线发射信道且可取决于如何确定信道质量及确定哪里的信道质量而被视为扩展到网络nw10的入口点(例如,基站控制器)、扩展到网络nw10内的另一个实体(例如,信道质量分析器)和/或扩展到接收终端104的接收器rx10。
接收终端104的接收器rx10用来凭借发射信道从网络nw10接收包。信道解码器cd10解码所述包以获得参数值,且音频解码器ad10使用来自包的参数值来合成音频信息(例如,根据如本文中所描述的方法)。经合成的音频(例如,语音)被提供到接收104上的第二用户接口ui20(例如,音频输出级和扬声器)。虽然未展示,但各种信号处理功能可执行于信道编码器ce10和信道解码器cd10中(例如,包含循环冗余检查(crc)功能的卷积译码,交错)以及发射器tx10和接收器rx10中(例如,数字调制和相对应的解调、展频处理、模数和数模转换)。
通信的每一方可进行发射也可进行接收,且每一终端可包含音频编码器ae10和解码器ad10的例子。音频编码器和解码器可为独立装置或集成到被称为“话音译码器”或“声码器”的单一装置中。如图11a中所展示,终端102、104被描述为在网络nw10的一个终端处具有音频编码器ae10且在另一终端处具有音频解码器ad10。
在发射终端102的至少一个配置中,可在数个帧中将音频信号(例如,语音)从第一用户接口ui10输入到音频编码器ae10,其中每一帧进一步分割成数个子帧。可使用此些任意帧边界,在这些帧边界处执行某种块处理。但是,如果实施连续处理而非块处理,那么可省略音频样本到帧(和子帧)的此类分割。在所描述的实例中,跨越网络nw10所发射的每一包可取决于特定应用和整体设计约束而包含一或多个帧。
音频编码器ae10可为可变速率或单一固定速率编码器。取决于音频内容(例如,取决于是否存在语音和/或存在何种类型的语音),可变速率编码器可随帧不同而在多个编码器模式(例如,不同固定速率)之间动态地切换。音频解码器ad10也可按相对应的方式随帧不同而在相对应的解码器模式之间动态地切换。可针对每一帧选择特定模式,以达成可用的最低比特率同时维持接收终端104处可接受的信号再现质量。
图11b展示音频编码器ae10的实施方案ae20的框图,所述实施方案ae20包含帧编码器fe10。帧编码器fe10经配置以编码输入信号的一连串帧cf(“核心音频帧”)中的每一者,从而产生一连串经编码音频帧ef中的相对应的一者。还可实施音频编码器ae10以执行额外任务,例如将输入信号分成帧及选择帧编码器fe10的译码模式(例如,选择初始比特配置的再分配,如本文中参考任务t400所描述)。选择译码模式(例如,速率控制)可包含执行话音活动检测(vad)和/或不然对帧的音频内容进行分类。在此实例中,音频编码器ae20还包含话音活动检测器vad10,所述话音活动检测器vad10经配置以处理核心音频帧cf,从而产生话音活动检测信号vs(例如,如3gppts26.194v11.0.0中所描述,2012年9月,可于etsi获得)。
实施帧编码器fe10以根据源滤波器模型来执行基于码本的方案(例如,码本激励线性预测或celp),所述源滤波器模型将输入音频信号的每一帧编码为:(a)描述滤波器的一组参数;以及(b)激励信号,其将在解码器处被用来驱动所描述的滤波器以产生音频帧的合成再现物。语音信号的频谱包络通常由峰值来表征,所述峰值表示声道(例如,喉部和口部)的共振且称为共振峰。大多数语音译码器将至少此粗糙频谱结构编码为例如滤波器系数等一组参数。可将剩余残差信号模型化为源(例如,如通过声带产生),所述源驱动滤波器以产生语音信号且通常由其强度和音调来表征。
可由帧编码器fe10使用以产生经编码帧ef的编码方案的特定实例包含(不限于)以下各者:g.726、g.728、g.729a、amr、amr-wb、amr-wb+(例如,如3gppts26.290v11.0.0中所描述,2012年9月(可从etsi获得))、vmr-wb(例如,如第3代合作伙伴计划2(3gpp2)文件c.s0052-av1.0中所描述,2005年4月(可在www-dot-3gpp2-dot-org下在线获得))、增强型可变速率编解码器(evrc,如3gpp2文件c.s0014-ev1.0中所描述,2011年12月(可在www-dot-3gpp2-dot-org下在线获得))、可选模式声码器语音编解码器(如3gpp2文件c.s0030-0,v3.0中所描述,2004年1月(可在www-dot-3gpp2-dot-org下在线获得)),以及增强型话音服务编解码器(evs,例如如3gpptr22.813v10.0.0中所描述(2010年3月),可从etsi获得)。
图12展示帧编码器fe10的基本实施方案fe20的框图,所述实施方案fe20包含预处理模块pp10、线性预测译码(lpc)分析模块la10、开环音调搜索模块ol10、自适应码本(acb)搜索模块as10、固定码本(fcb)搜索模块fs10和增益向量量化(vq)模块gv10。可实施预处理模块pp10,例如如3gppts26.190v11.0.0的部分5.1中所描述。在一个此类实例中,实施预处理模块pp10以执行对核心音频帧的降低取样(例如,从16khz到12.8khz)、对降低取样帧的高遍次滤波(例如,具有50hz的截止频率)和对滤波帧的预强调(例如,使用一阶高通滤波器)。
线性预测译码(lpc)分析模块la10将每一核心音频帧的频谱包络编码为一组线性预测(lp)系数(例如,如上文所描述的全极点滤波器1/a(z)的系数)。在一个实例中,lpc分析模块la10经配置以计算一组16个lp滤波器系数来表征每一20毫秒帧的共振峰结构。可实施分析模块la10,例如如3gppts26.190v11.0.0的部分5.2中所描述。
分析模块la10可经配置以直接分析每一帧的样本,或可首先根据开窗函数(例如,汉明窗(hammingwindow))来对样本进行加权。也可在大于帧的例如30ms窗等窗内执行分析。此窗可为对称的(例如,5-20-5,使得其紧接20毫秒帧之前和之后包含5ms)或不对称的(例如,10-20,使得其包含前一帧的后10ms)。lpc分析模块通常经配置以使用levinson-durbin递推或leroux-gueguen算法来计算lp滤波器系数。虽然lpc编码非常适合于语音,但其也可用来编码一般音频信号(例如,包含例如音乐等非语音)。在另一实施方案中,分析模块可经配置以针对每一帧计算一组倒频谱系数而非一组lp滤波器系数。
分析模块la10经配置以量化所述组isf(或lsf或其它系数表示),且帧编码器fe20经配置以将此量化的结果输出为lpc索引xl。此类量化器通常包含向量量化器,所述向量量化器将输入向量编码为到表或码本中相对应的向量条目的索引。模块la10还经配置以提供经量化系数以用于计算如本文中所描述的加权合成滤波器(例如,通过acb搜索模块as10)。
帧编码器fe20还包含任选的开环音调搜索模块ol10,所述开环音调搜索模块ol10可用来简化音调分析并减小自适应码本搜索模块as10中的闭环音调搜索的范围。可实施模块ol10以经由基于经去量化lp滤波器系数的加权滤波器来对输入信号进行滤波,抽取加权信号的十分之二,及每帧产生音调估计值一次或两次(取决于当前速率)。可实施模块ol10,例如如3gppts26.190v11.0.0的部分5.4中所描述。
自适应码本(acb)搜索模块as10经配置以搜索自适应码本(基于过去激励,且也称为“音调码本”),从而产生音调滤波器的延迟和增益。可实施模块as10,以在子帧的基础上对目标信号执行围绕开环音调估计值的闭环音调搜索(例如,如通过经由加权合成滤波器基于经量化和经去量化lp滤波器系数对lp残差进行滤波而获得)且随后通过在所指示的分数音调滞后处内插过去激励来计算自适应码向量并计算acb增益。还可实施模块as10以使用lp残差来扩展过去激励缓冲器,从而简化闭环音调搜索(尤其是对于小于例如40或64个样本的子帧大小的延迟来说)。可实施模块as10以产生acb增益gp(例如,对于每一子帧来说)和经量化索引,所述经量化索引指示第一子帧的音调延迟(或取决于当前速率,第一子帧和第三子帧的音调延迟)及其它子帧的相对音调延迟。可实施模块as10,例如如3gppts26.190v11.0.0的部分5.7中所描述。在图12的实例中,模块as10将经修改的目标信号x′(n)和经修改的脉冲响应h′(n)提供到fcb搜索模块fs10。
固定码本(fcb)搜索模块fs10经配置以产生指示固定码本(也称为“创新码本”、“创新型码本”、“随机码本”或“代数码本”)的向量的索引,其表示所述激励的未通过自适应码向量而模型化的部分。可实施模块fs10以将码本索引产生为码字,所述码字含有再现fcb向量c(n)(例如,表示脉冲位置和符号)所需的所有信息,使得不需要码本。可实施模块fs10,例如如在本文中的图8中和/或在3gppts26.190v11.0.0的部分5.8中所描述。在图12的实例中,模块fs10还经配置以将滤波器h1(z)h2(z)应用到c(n)(例如,在计算子帧的激励信号e(n)之前,其中e(n)=gpv(n)+gcc′(n))。
增益向量量化模块gv10经配置以量化fcb增益和acb增益,所述增益可包含每一子帧的增益。可实施模块gv10,例如如3gppts26.190v11.0.0的部分5.9中所描述。
图13a展示通信装置d10的框图,所述通信装置d10包含体现设备a100(或mf100)的元件的芯片或芯片组cs10(例如,移动台调制解调器(msm)芯片组)。芯片/芯片组cs10可包含一个或多个处理器,所述处理器可经配置以执行设备a100或mf100的软件和/或固件部分(例如,作为指令)。发射终端102可实现为装置d10的实施方案。
芯片/芯片组cs10包含:接收器(例如,rx10),其经配置以接收射频(rf)通信信号并对编码于rf信号内的音频信号进行解码和再现;以及发射器(例如,tx10),其经配置以发射描述经编码音频信号(例如,如使用方法m100所产生)的rf通信信号。此类装置可经配置以经由本文中提及的编解码器中的任何一或多者而以无线方式发射和接收话音通信数据。
装置d10经配置以凭借天线c30来接收和发射rf通信信号。装置d10还可包含在到天线c30的路径中的双工器和一或多个功率放大器。芯片/芯片组cs10还经配置以凭借小键盘c10来接收用户输入且凭借显示器c20来显示信息。在此实例中,装置d10还包含一或多个天线c40以支持全球定位系统(gps)位置服务和/或与例如无线(例如,bluetoothtm)耳机等外部装置的短程通信。在另一实例中,此类通信装置自身为bluetoothtm耳机,且不具有小键盘c10、显示器c20和天线c30。
无线装置1102包含控制装置的操作的处理器1104。处理器1104也可被称作中央处理单元(cpu)。存储器1106(其可包含只读存储器(rom)与随机存取存储器(ram)两者)将指令和数据提供到处理器1104。存储器1106的一部分还可包含非易失性随机存取存储器(nvram)。处理器1104通常基于存储在存储器1106内的程序指令来执行逻辑和算术运算。存储器1106中的指令可执行以实施如本文中所描述的一或多种方法。
无线装置1102包含外壳1108,所述外壳1108可包含发射器1110和接收器1112以允许在无线装置1102与远端位置之间发射和接收数据。发射器1110和接收器1112可组合成收发器1114。天线1116可附接到外壳1108且电耦合到收发器1114。无线装置1102还可包含(未展示)多个发射器、多个接收器、多个收发器和/或多个天线。
在此实例中,无线装置1102还包含信号检测器1118,所述信号检测器1118可用来检测并量化由收发器1114接收的信号的电平。信号检测器1118可将此些信号检测为总能量、每伪噪声(pn)码片的导频能量、功率谱密度和其它信号。无线装置1102还包含供用于处理信号的数字信号处理器(dsp)1120。
无线装置1102的各个组件通过总线系统1122耦合在一起,所述总线系统1122除数据总线之外还可包含功率总线、控制信号总线和状态信号总线。为清楚起见,各种总线在图13b中说明为总线系统1122。
明确地涵盖且特此揭示,本文中所揭示的通信装置可适于在包交换型(例如,经布置以根据例如voip等协议携载音频发射的有线和/或无线网络)和/或电路交换型网络中使用。还明确地涵盖和特此揭示,本文中所揭示的通信装置可适于在窄带译码系统(例如,对约四或五千赫兹的音频频率范围进行编码的系统)中使用和/或在宽带译码系统(例如,对大于五千赫兹的音频频率进行编码的系统)(包含全波段宽带译码系统和分离波段宽带译码系统)中使用。
提供对所描述配置的呈现以使得所属领域的技术人员能够制作或使用本文中所揭示的方法及其它结构。本文中所展示和描述的流程图、框图及其它结构仅为实例,且这些结构的其它变型也在本发明的范围内。对这些配置的各种修改均为可能的,且本文中所呈现的一般原理还可应用于其它配置。因此,本发明不欲限于以上展示的配置而是将符合与本文中(包含在形成原始揭示内容的部分的所申请的所附权利要求书中)以任何方式揭示的原理及新颖特征一致的最广范围。
所属领域的技术人员将理解,可以使用多种不同技术及技艺中的任一者来表示信息及信号。举例来说,可通过电压、电流、电磁波、磁场或磁粒子、光场或光粒子或其任何组合来表示在整个以上描述中参考的数据、指令、命令、信息、信号、位及符号。
对如本文中所揭示的配置的实施方案的重要设计要求可包含最小化处理延迟和/或计算复杂度(通常以每秒多少百万指令或mips来测量),尤其是对于计算密集型应用(例如,压缩音频或视听信息(例如,根据例如本文中所识别的实例中的一者等压缩格式而编码的文件或流)的重放)或宽带通信的应用(例如,在例如12、16、32、44.1、48或192khz等高于8千赫兹的取样率下的话音通信)来说。
如本文中所揭示的设备(例如,设备a100、a200、mf100、mf200)可按被视为适合于既定应用的硬件与软件和/或与固件的任何组合来实施。举例来说,可将此类设备的元件制造为(例如)驻留在相同芯片上或芯片组中的两个或两个以上芯片当中的电子和/或光学装置。此类装置的一个实例是逻辑元件(例如,晶体管或逻辑门)的固定或可编程阵列,且可将这些元件中的任一者实施为一或多个此些阵列。这些元件中的任何两者或两者以上或甚至全部可实施于相同的一或多个阵列内。此类一或多个阵列可实施在一或多个芯片内(例如,包含两个或两个以上芯片的芯片组内)。
可将本文中所揭示的设备的各种实施方案(例如,设备a100、a200、mf100、mf200)的一或多个元件完全或部分地实施为一或多个指令集,所述指令集被布置成执行于逻辑元件的一或多个固定或可编程阵列上,例如微处理器、嵌入式处理器、ip核心、数字信号处理器、fpga(现场可编程门阵列)、assp(专用标准产品)和asic(专用集成电路)等。如本文中所揭示的设备的实施方案的各种元件中的任一者还可体现为一或多个计算机(例如,包含经编程以执行一或多个指令集或指令序列的一或多个阵列的机器,也被称为“处理器”),且这些元件中的任何两者或两者以上或甚至全部可实施于相同的此类一或多个计算机内。
本文中所揭示的方法、方案和技术的实施方案还可有形地体现(例如,在如本文中所列举的一或多个计算机可读存储媒体的有形计算机可读特征中)为可由包含逻辑元件阵列(例如,处理器、微处理器、微控制器或其它有限状态机)的机器执行的一或多个指令集。术语“计算机可读媒体”可包含可存储或传送信息的任何媒体,包含易失性、非易失性、可装卸式及非可装卸式存储媒体。计算机可读媒体的实例包含电子电路、半导体存储器装置、rom、快闪存储器、可抹除rom(erom)、软盘或其它磁性存储装置、cd-rom/dvd或其它光学存储器、硬盘或可用来存储所要信息的任何其它媒体、光纤媒体、射频(rf)链路或可用来携载所要信息并可存取的任何其它媒体。计算机数据信号可包含可经由例如电子网络信道、光纤、空气、电磁波、rf链路等发射媒体来传播的任何信号。可凭借例如因特网或企业内部网路等计算机网络来下载代码段。在任何情况下,不应将本发明的范围解释为受此些实施例限制。
如本文中所描述的声学信号处理设备可并入到电子装置(例如,通信装置)中,所述电子装置接受语音输入以便控制某些操作,或可否则得益于所要噪声与后台噪声的分离。许多应用可得益于从源自多个方向的后台声音增强或分离清晰的所要声音。此些应用可包含并有例如话音辨识及检测、语音增强及分离、话音激活控制及类似者等能力的电子或计算装置中的人机接口。可能需要实施此类声学信号处理设备以适合于仅提供有限处理能力的装置中。
可将本文中所描述的模块、元件及装置的各种实施方案的元件制造为(例如)驻留在相同芯片上或芯片组中的两个或两个以上芯片当中的电子和/或光学装置。此类装置的一个实例为逻辑元件(例如,晶体管或门等)的固定或可编程阵列。本文中所描述的设备的各种实施方案的一或多个元件还可完全地或部分地实施为经布置以在逻辑元件的一或多个固定或可编程阵列(例如,微处理器、嵌入式处理器、ip核心、数字信号处理器、fpga、assp及asic等)上执行的一或多个指令集。