语音合成技术通用12篇|专门发短信的软件_在线平台

开篇：写作不仅是一种记录，更是一种创造，它让我们能够捕捉那些稍纵即逝的灵感，将它们永久地定格在纸上。下面是小编精心整理的12篇语音合成技术，希望这些内容能成为您创作过程中的良师益友，陪伴您不断探索和进步。

中图分类号：TN912文献标识码：A

随着语音合成的要求越来越高，语音学家对语音合成的研究技术不断更新。早期研究利用合成语音的参数方法，以提高它的LSP，LPC和其他言语参数。这些都反映在越来越多和越来越严格的语音合成系统应用，现在不仅对语音合成有连贯性的要求，而且还有更高的需求。

上世纪60年代TTS英文版系统被成功研制。在80年代，我国也开始研究中文TTS。中国科技大学，社会科学院，中国科学院，清华大学等所有单位都在TTS的研究领域中不懈努力奋斗。不仅如此，在中国台湾的著名大学，如台湾大学和台湾交通大学也开始在语音系统领域中研究。甚至一些研究成果已成为产品在现实中使用。同时，在世界主要国家也已经开发相应的产品。

上世纪80年代后期和，科学家就开始对修改语音合成技术的时域波形进行研究，即PSOLA（基音同步叠加）技术。其主要特点是：在衔接语音波形段，首先按照上下文，根据拼接单元与PSOLA算法调整的韵律特征，合成波形不仅保持主音发音段的功能，并能与环境做出韵律特征的拼接单元，从而获得可懂度和自然度很高的合成语音。PSOLA技术有了很大的发展和广泛的应用。为了提高合成语音的质量，人们开发了语音波形拼接技术，该技术主要用于一些语音信号的参数如音高，而不是语音参数波形。这项技术能合成出更加自然的语音。

在上世纪90年代，比LPC语音合成技术和共振峰技术更优越的技术已经诞生，利用该项技术合成的中文与英文显得更加自然，并已经被广泛应用于商业领域。近年来，人们在研究通过数据库建立的语音合成算法。只要应用数据库就可以进行基本的语音单元合成，可以更方便的进行语音信号的拼接合成。对于确定合成语音质量，语音库中起着非常重要的作用。多种感情的语音单元是各种情况下语音数据库的唯一入口，从而合成了一种任意语句。因此，语音数据库的容量必须足够大。这种合成语音的自然度将有较大的升级。

2语音合成技术的理论

语音合成是利用语音处理技术来建立数字语音模型，模型首先通过激励信号，在人体器官中传递声音，随后发出声音。语音合成技术可以根据不同的规则分为不同的类型，如信道模型参数法，语音参数法和波形拼接法。波形拼接法是衔接语音信号和易懂的语音信号，从而合成信号强度和自然度高的语音信号。

参考文献

语音技术标准的三个层面

虽然目前国际上还没有统一的、得到广泛承认和支持的语音合成与识别领域的技术标准，但是，这方面的研究工作发展迅速，近几年推出了许多研究成果，特别是W3C组织积极推动并了多个语音技术应用方面的规范或标准。例如，W3C了VoiceBrowser(语音浏览器)标准的草案。在这个标准中，VoiceBrowser标准(草案)定义了几种支持语音输入和输出的链接语言。这些链接语言使语音设备可以跨越各种硬件和软件平台,特别是设计了关于对话、语音识别语法、语音合成、自然语言语义和搜集可重复使用的对话组件的链接语言。这些链接语言和组件就构成了未来语音界面框架。现在，这个标准组中的参加成员有AT&T、Cisco、Hitachi、HP、IBM、Intel、Lucent、Microsoft、Motorola、Nokia、Nortel、Sun和Unisys等公司。由于语音识别与合成技术还处在迅速发展阶段，制订出一套合适的技术标准很不容易。关于语音技术(除了语音编码)有关标准的制定工作主要集中在三个层面。

语音识别/合成引擎及其开发接口:在这个层面上还没有一个技术标准或规范被广泛承认和采纳。ISO、ITU、NIST、W3C等标准化组织都没有在该方面推出技术标准或规范。实际上，这方面的工作涉及到许多语音识别/合成系统的具体实现问题，而系统的实现方法千变万化，难以用一个统一的规范和标准来规范。虽然没有语音识别/合成引擎及其开发接口的统一的标准和规范，但一些开发厂商和研究机构还是制定了各自的规范，在各自的语音系统中得到了实现，并随着语音识别/合成系统的推出而。

IBM在其推出的语音识别与合成引擎ViaVoice中规定了开发接口，提供了几百个开发接口函数。Microsoft推出了基于它的语音识别与合成引擎开发语音应用的接口SpeechSDK,在其中也提供了类似的开发接口函数。但是，IBM和Microsoft的语音识别与合成引擎的实现细节没有公开，也没有提供这方面的技术规范。另外，美国的CMU大学、英国剑桥大学电子工程系的HTK开发组都了开放式的语音识别与合成引擎的源码以及相应的开发工具，它们的语音识别与合成引擎的实现方法纷纷被众多的开发者所借鉴，从而形成了业界很有影响的开发规范，但是，这些规范也不是标准。目前，有许多语音识别与合成引擎，但是没有提供实现的技术规范，因此，这些系统的实现和提供的接口只是遵守各自特殊的规定，没有规范化并得到广泛的应用。

中文语音技术标准现状

制订中文语音技术的有关标准，对促进中文语音技术应用、推动中文语音产业发展、增强民族软件核心竞争力均具有非常重要的意义。国家信息产业部、“863”专家组、国家技术监督局和国家信息标准化委员会分别于2001年、2002年、2003年召开了三届语音标准研讨会，并于2003年11月由信息产业部科技司正式下文成立了“中文语音交互技术标准工作组”。

国家“863”智能人机接口专家组在20世纪90年代中后期邀请国内的一些研究机构和大学制订了针对汉语语音识别与合成系统的评价规范，该评价规范应用到了历届对“863”支持的汉语语音识别与合成系统的评价过程中。如果从语音识别与合成技术标准的三个层面考察，国内在该领域的研究工作主要集中在系统性能的评价规范的制订上，至今还没有正式实施的国家标准。但是，随着国内的语音应用开发地迅速发展，没有一个统一的技术规范或标准会造成许多开发重复，资源浪费。

技术标准的主要内容

为了适应网上语音浏览、语音信息检索、交互式语音应用的发展需求，语音识别与合成技术的标准制订工作的重点目前应该集中语音技术应用层面和语音识别/合成引擎及其开发接口上。这样的一个标准或规范必须是有代表性的，通用的，被广泛接受和采用的;显然，制定一个这样的标准不能闭门造车，要有标准的使用机构或潜在的使用机构参与，还必须与国际上已有的类似的标准接轨，与国际上的标准化机构，如ISO、W3C、ITU等密切合作。值得注意的是，语音识别/合成的实现算法千差万别，该领域的标准或规范只能提供一个实现框架，没有必要对具体的实现算法和技术细节进行约束。另外，语音技术标准还应该与具体应用无关，与语音识别/合成引擎无关等。

如上所述，语音技术标准(除了语音编码)的制订工作主要集中在三个不同的层面上。这三个层面标准的内容分别是:

语音技术应用:一般基于语音的应用都有如下图所示的架构(已简化)。

在这个层面上，语音技术标准的主要内容是:规定语音输入、语音输出、识别结果、返回结果的格式和属性。语音输入和语音输出属于用户与语音信号处理引擎之间的交互过程，所以，这部分也包括语音用户界面的内容;识别结果是语音信号处理引擎输出的结果，也是识别结果执行引擎的输入，识别的结果一般是文本或命令，如何将识别结果格式化是该层面的主要任务;返回结果是识别结果执行引擎的输出，也是语音信号处理引擎的输入，经语音信号处理引擎处理后，以语音的方式返回给用户。为此，需要规定语音输出的参数格式，如韵律特征、重音特征和停顿等。制订这方面的标准内容还应该考虑汉语语言和语音结构的特殊性。现在已经的技术标准或规范主要是VoiceXML和SALT，它们都属于描述和规定语音技术应用的层面，都是基于标记语言的格式。

链接:推动技术标准制订

【关键词】超声波;测距;语音合成技术

一、背景及意义

中国是全世界盲人最多的国家之一，目前我国眼部残疾人士多达600万，占世界眼疾人数的18%。眼部疾病在中国也是一个主要的公共卫生问题。由于生理上的缺陷，盲人在生活、工作等方面有着诸多不便。在当今人体可穿戴设备快速发展下，如何设计出盲人可穿戴设备对盲人和社会具有十分重要的意义。

二、超声波测距的实现

（一）超声波测距原理

图1超声波测距原理框图

（二）超声波测距的误差分析

根据超声波测距公式s=c×t，主要分为以下两个方面的误差：

当要求测距误差小于1mm时，已知超声波速度C=344m/s（20℃室温），忽略声速的传播误差。测距误差t<（0.001/344）≈0.000002907s即2.907μs[2]。

2.超声波传播速度误差

超声波传播受环境温度影响比较明显。温度为0℃时超声波速度是344m/s，30℃时达到349m/s。一般温度每升高一度，传播速度大约增加0.6m/s。若超声波在30℃的环境下以0℃的声速测量100m距离所引起的测量误差将达到5m，测量1m误差将达到5cm。解决温度带来的影响一般采用温度补偿法[3]。由于本设计要求测量距离在5m之内，因此综合考虑可以忽略这种误差。

三、硬件电路的设计

（一）超声波发射电路

超声波发射电路由超声波探头和超声波放大器组成。超声波探头将电信号转换为机械波发射出去，而单片机所产生的40kHz的方波脉冲需要进行放大才能将超声波探头驱动将超声波发射出去，所以发射驱动实际上就是一个信号的放大电路，本设计由单片机产生40KHz的方波，选用74LS04芯片进行信号放大（见图2）。

（二）超声波接收电路

由于超声波在空气中的传播过程中会发生衰减，如果距离较远，那么接收到的超声波信号就会比较微弱，因此需要对接收到的信号进行放大。超声波接收电路主要是由集成电路CX20106A芯片电路构成的，CX20106A芯片电路可以对超声波信号进行放大、限幅、带通滤波、峰值检波、整形、比较等功能，比较完之后超声波接收电路会输出一个低电平到单片机去请求中断，此时单片机停止计时，并开始去进行数据的处理。

CX20106A芯片的前置放大器具有自动增益控制的功能，当测量的距离比较近时，放大器不会过载;而当测量距离比较远时，超声波信号微弱，前置放大器就有较大的放大增益效果。CX20106A芯片的5脚在外接电阻对它的带通滤波器的频率进行调节，而且不用再外接其他的电感，能够很好地避免外加磁场对芯片电路的干扰，而且它的可靠性也是比较高的。CX20106A芯片电路本身就具有很高的抗干扰的能力，而且灵敏度也比较高，所以，能满足本设计的要求。

图3超声波接收电路图

（三）语音合成模块

此模块电路采用SYN6658语音合成芯片。SYN6658通过UART接口或SPI接口通讯方式，接受带合成的文本数据，实现文本到语音的转换。具有清晰、自然、准确的中文语音合成效果。可采用GB2312、GBK、BIG5和Unicode四种编码方式[4]。

图4语音合成模块电路图

主控制器和SYN6658语音合成芯片之间通过UART接口或SPI接口连接，控制器可通过通讯接口向SYN6658语音合成芯片发送控制命令和文本，SYN6658语音合成芯片把接收到的文本合成为语音信号输出，输出的信号经功率放大器进行放大后连接到喇叭进行播放（见图4）。

四、软件设计

图5总系统流程图图6语音播放流程图

部分程序：

#include

voidmain（void）

{unsignedcharTempCyc;

Delay400Ms（）;

LCMInit（）;

Delay5Ms（）;

DisplayListChar（0，0，mcustudio）;

DisplayListChar（0，1，email）;

ReadDataLCM（）;

for（TempCyc=0;TempCyc<10;TempCyc++）

DisplayListChar（0，1，Cls）;

while（1）

{

TMOD=0x01;

TH0=0;

TL0=0;

ET0=1;

EA=1;

StartModule（）;

//DisplayOneChar（0，1，ASCII[0]）;

while（！RX）;

TR0=1;

while（RX）;

TR0=0;

Conut（）;

delayms（80）;

}}}

五、结语

本系统经过多次试验，测试所得结果与设计要求基本一致。该超声波测距的导盲设计有效距离可达到3.8m，测量精度为2.0cm，同时可以实时地通过语音模块播报提示，具有很好的导航功能，能够能够满足盲人导航器的设计要求，为盲人安全行走提供了保障。

[1]时德钢，刘晔，王峰，韦兆碧，王采堂.超声波精确测距的研究[J].计算机测量与控制，2002，10（7）.

[2]纪良文，蒋静坪.机器人超声测距数据的采集与处理[J].电子技术应用，2006.

[3]白顺先.超声波测距系统的设计与实现[J].高校理科研究，2000（08）.

[4]SYN6588中文语音合成芯片数据手册[Z].北京：北京宇音天下科技有限公司，2012.

1系统设计

1.1系统功能划分

1.2系统流程图

系统由一个主页面和后台功能服务构成，当用户打开软件，点击主页面语音按钮时，此时进入语音输入模块，用户说出语音指令，系统根据预先定义的语法文件，选择进入相应的功能子模块，顺利完成该功能后，程序返回继续监听用户的点击操作。系统总体流程图如图2所示。

图2系统总体流程图

注：图2中*代表联系人、号码、歌曲名或城市名

1.3系统功能模块设计

下面对图2中几个主要子系统模块的功能和流程进行分析与设计：

2）发送短信逻辑设计

3）播报天气逻辑设计

该子系统主要是为了方便用户了解天气，当用户需要了解天气的时候，只需通过相应的语音指令告诉手机，某地今天/明天天气怎么样，系统即可分辨出关键词“天气”进而转入该子系统。系统通过WebService访问webxml.com.cn网站获取天气情况，并将结果进行解析从而获得最终结果，最后以语音的方式向用户播报。

5）接收短信逻辑设计

2系统实现

介绍系统功能的实现过程，包括语音合成和识别功能，访问数据库和WebService功能的实现。

2.1语音识别功能实现

本系统中所实现的各个功能都是基于语音合成和语音识别技术，其具体实现都是采用科大讯飞的MSP。科大讯飞的MSP移动语音云平台目前只提供一种语音识别的方法，即语音识别控件（RecognizerDialog）[3]，其函数原型为：

publicRecognizerDialog（Contextcontext，Stringparams）；

以下是系统中语音识别的部分关键代码：

RecognizerDialogisrDialog=new

RecognizerDialog（MainActivity.this，"appid=51540a3e"）；//创建语音识别对象

isrDialog.setListener（recognizeListener）；

Stringgrammar="#ABNF1.0gb2312；＼n"+

"languagezh-CN；＼n"+

"modevoice；＼n"+

"root$main；＼n"+

"$contact=${names}|$digit<3-11>；＼n"+

"$date=今天|明天；＼n"+

"$city=武汉|北京|上海|广州|深圳|重庆；＼n"+

"$digit=0|1|幺|2|3|4|5|6|7|8|9；＼n"+

"$song=自由飞翔；＼n"；//语法文件

grammar=grammar.replace（"${names}"，a）；

isrDialog.setEngine（"asr"，"grammar_type=abnf"，grammar）；//进行语法文件识别

Stringtext=results.get（0）.text；//获取结果

2.2语音合成功能的实现

科大讯飞的MSP移动语音平台共提供两种中文语音合成的使用方法：语音合成控件（SynthesizerDialog）及语音合成播放器（SynthesizerPlayer）[3]。本系统采用第二种语音合成方法，通过此接口可以实现在后台进行语音合成播放，而不需要通过SynthesizerDialog显示界面。其函数原型为：

PublicstaticSynthesizerPlayercreateSynthesizer

Player（Contextcontext，Stringparams）；

以下是系统中语音合成的部分关键代码：

SynthesizerPlayerplayer；//创建合成对象

player=SynthesizerPlayer.createSynthesizerPlayer（MainActivity.this，"appid=51540a3e"）；

player.setVoiceName（"vixnn"）；//设置发音人

player.playText（"今天是"+year+"年"+month+"月"+date+"日"+"，星期"+week，"tts_buffer_time=5000"，null）；//进行语音合成

2.3访问数据库功能实现

ContentResolvercontentResolver=getContentRe

solver（）；//创建数据查询对象

cursor=contentResolver.query（ContactsContract.CommonDataKinds.Phone.CONTENT_URI，projection，ContactsContract.CommonDataKinds.Phone.DISPLAY_NAME+"=？"，newString[]{contactName}，""）；[4]

//结合查询条件进行数据查询

IntnameFieldColumnIndex=cursor.getColumnIn

dex（ContactsContract.CommonDataKinds.Phone.NUMBER）；//获取查询结果

Stringnumber=cursor.getString（nameFieldColu

2.4访问WebService功能实现

系统中查询天气模块用到了WebService，需要访问网站获取天气情况，然后对其进行解析从而获得最终结果。具体实现代码如下：

byte[]entity=readSoap（）.getBytes（）；

ervices/WeatherWebService.asmx"；//查询网址

URLurl=newURL（path）；

HttpURLConnectionconn=（HttpURLConnection）url.

openConnection（）；//打开网络连接，进行查询[5]

conn.getOutputStream（）.write（entity）；//获取查询结果

returnparseSoap（conn.getInputStream（））；

3系统运行测试

本软件的测试平台是中兴U880，CPUMarvellPXA920，CPU频率为806MHZ单核，RAM容量512MB，ROM512MB，系统为Android2.2，支持Bluetooth，GSM，TD-SCDMA和Wifi通信，主屏3.5英寸，分辨率为800×480像素。利用Eclipse将本软件安装到手机上，进行测试。

3.1系统主界面

系统只有一个主界面，它由两部分构成，上面部分是一个ScrollView（滚动条），包括系统几项功能的提示和指令格式；下面部分

（下转第4459页）

（上接第4449页）

是一个固定的ImageButton（图像按钮），用来触发语音事件，它也是用户最常使用的控件，在整个主界面上占有较大空间，以便于用户操作。主界面效果如图5所示。

图4系统主界面图5语音拨号界面

4结束语

基于Android的盲人手机系统是一款为方便盲人而开发的手机应用软件，它可使用户免于繁琐的手动输入，只需要简单地说出语音命令，即可实现相应的功能，为视力障碍人群提供了一种有效操作手机的途径。软件安装简单，安装成功后无需任何设置，打开本软件后触发语音按键即可进行各种操作。系统功能较为全面，操作方便快捷，具有一定的推广和实用价值。

参考文献：

[1]安徽科大讯飞信息科技股份有限公司.讯飞语音改变移动生活[J].计算机与信息技术，2011，6（3）：25-32.

[2]郭少豪.Android手机交互应用开发[M].北京：中国铁道出版社，2011：171-199.

当然，语音应用也并不都那么高深莫测，手机里的语音拨号已经成为最大众化的应用之一。就在不久前，比尔盖茨又预言，未来5年，人与电脑的互动方式将发生重大变革，现有的鼠标和键盘将被触摸、视觉和语音所代替……

世界之最难技术

语音技术包含语音合成、语音识别两大部分，其中，后者是业内公认最难的技术，当今计算机运算速度越来越快，存储容量越来越高，而语音识别却依然没有什么突破性进展。中科院自动化所模式识别国家重点实验室研究员徐波解释说，语音技术属于人工智能范畴，要让电脑模拟人脑，这本来就是一个非常难的领域，因为人脑的思维是非线性的，非纯逻辑性的，而计算机是二进制、纯逻辑的。语音合成是让计算机说，就好比银行里的叫号机，“请――一百――零――三号――到――第五柜台办理”。这些词汇元素，是事先录好在数据库里，然后按需求抽取出来，合成在一起后再播放出来。但由于合成的不好，我们听到的是断断续续的播报。不过好在接收方是人，尽管不连贯，人们还是能听懂。而语音识别就不一样了，它是让计算机听懂人话，接收方是计算机，人们的词汇量是何其大，各地方言也千差万别，再加上在嘈杂的环境中，计算机更是无法分辨哪些是背景噪声，而哪些又是真正需要接收的语音指令。

“1981年，日本投资了1千亿日元，第一次向世界宣告要开始研制‘第五代计算机’，目标是做一个人工智能化的信息采集、存储、处理、通信计算机系统，具有形式化推理、联想、学习和解释的能力，甚至能够帮助人们进行判断、决策、开拓未知领域和获得新的知识。其别提到，人机之间可以直接通过自然语言或图形图像交换信息。但是计划最终以失败告终，因为科学家们认识到，要研究第五代计算机，先要研究语言学家，研究人的思维，而这又是一项复杂而漫长的工程。”他说。

语音技术民间化

当初，“第五代计算机”开发计划被制定为10年，然而将近30年后的今天，我们依然没有完成这个梦想。这么看来，比尔盖茨预言的5年，貌似也是个可望不可及的梦想了？当然不是，语音技术已经今非昔比，并且渗透到咱们生活的方方面面。

从可以读短信的语音王手机，到可以辅助读网络小说的“语音电子书”软件（如今还有手机使用的版本），还有银行、运营商等服务热线，语音合成技术已经告别了磕磕巴巴朗读的年代，清晰流畅得可以和真人相比。但是在语音识别领域，进展还没有前者那么快速。即便是拥有40多年提供语音解决方案的经验、150多个语音技术专利、语音识别产品在全球销售已达一百万套以上，领导了世界的语音识别技术的IBM，其语音识别的主打软件ViaVoice（第一个全功能的语音指令桌面程序，可以用语音在PC、手提设备、汽车系统和自动客户服务系统之间进行信息交流）也令人感到生硬。“用它输入太慢了，还不如键盘敲字，谁会去用呢？”曾经试用过ViaVoice的李先生对记者说。

记者在采访中科院声学所专门研究语音交互技术的杜利民博士时问道：“在某博览会上曾经展出的可以和人对话的机器人，是不是就是一个语音识别技术市场化的未来方向？”杜博士说：“语音玩具不能说不是一个趋势，但这类产品一定是有用的，能为人们带来一定价值的，而不是靠炒作科技概念。只有这样的产品，才能真正让人愿意掏钱去购买，走入家庭。”

国际巨头的语音试验田

微软是个如此庞大的公司，它当然什么都想做，而语音是尤其受到比尔盖茨推崇的，他从很早就相信，语音技术在未来的人机交互中一定占绝对优势，既然这样，主打操作系统的微软怎么能不做语音？也就从那时起，微软研究院的语音组诞生了。前有老大盖茨的理想，后有Windows操作系统和Office办公软件在赢利上撑腰，语音组虽然一直没赚钱，但也义无反顾地坚持了下来。

当然，我们还不能不提到IBM这个语音领域的巨头，然而，如同IBM卖掉PC业务一样，把利润变薄的业务甩掉，便于把更多财力、精力投入到更赚钱的业务上去。现阶段看来，语音市场风险还比较大，还不够热到让IBM下大本儿来运作，因此IBM更将语音视为一种技术研究和储备。

中国企业的挑战与机遇

分析了国际巨头们在语音技术领域的力量体系，国内的语音企业要向哪个方向发展才能敌过他们？科大讯飞的胡院长对记者说：“大公司的优势毋庸置疑，但这些优势也在一定程度上限制了他们的思维和对市场的应变速度。在这些公司里做语音，只需要把技术做好就行了，他们的市场意识并不很强，还没有考虑要通过这些技术创造多少价值。而对于我们国内企业，特别是专门从事语音技术的企业，则要把技术研发、设计、产品、市场一条线串联起来。找准切入点，迅速地拉动市场对语音产品的需求。大公司的梦想需要5年，而我们会用3年来实现看似并没有那么宏大的目标。”

关键词：多模态二语语音习得；生理仪器测量；语音合成；声学分析

1语音多模态研究与多模态二语语音习得

语音学是研究人类说话声音及言语过程的学科。现代语音学一般分为发声语音学（artieulatoryphonet—ics）、声学语音学（acousticphonetics）和听觉语音学（auditoryphonetics）。发声语音学主要研究讲话人的语音产出，声学语音学主要研究讲话人与听话人之间的语音传递，听觉语音学主要研究听话人对语音的接受和感知。三者涉及言语交际过程中的发音、传递和感知三个阶段。正如图1言语链（TheSpeechChain）所示，言语的产出与感知过程复杂，涉及语言学层面（linguistielevel）、生理学层面（physiologicallevel）和声学层面（acousticlevel）发生的一系列现象。

“模态”（modal）本是计算机科学中研究人机交互时使用的一个术语，指“人类通过感官（听觉、视觉等）跟外部环境（如人、机器、物件、动物等）之间的互动方式”（顾曰国，2007）。“多模态”指综合运用多种模态，通过文本、图像、视频、手势、三维动画等多种手段和符号载体进行交际的现象（Iedema，2003；O’Halloran，2011）。“语音多模态研究主要是指对某种语音进行语言学、语音学、语音声学和语音生理学的全方位研究”（孔江平，2008）。这一全方位研究基本涵盖言语过程中的发音、传递和感知三个阶段。因此，语音多模态研究对二语语音习得的多模态研究有着重要的借鉴意义。

1.1多模态二语语音习得研究框架构建

基于语音多模态研究，我们尝试性构建不同层面（音段层面、超音段层面）的多模态二语语音习得研究框架（如图2所示）。

1.2多模态二语语音习得研究框架在二语语音习得中的应用

1.2.1基于生理仪器测量的多模态二语语音习得

（1）动态声门研究与二语语音习得

（2）口鼻气流气压研究与二语语音习得

目前学术界使用比较多的口鼻气流气压计是SCI—CONR&D公司的PCquirer系统，其主要测量参数有：口腔的气流量和气压级，鼻腔的气流量、气压级和基频等。这一仪器“除了用于腭裂、运动性言语障碍、听力障碍、腭修复、功能性的鼻音问题等嗓音病变和语音矫正外；还可以提取各种不同的参数用于言语产生的生理研究”（李永宏等，2008）。

（3）动态腭位研究与二语语音习得

言语产生（speechproduction）是言语链中最底端和基础的部分，也是语音学中最为重要的基础性内容。在言语产生研究中发音器官动作特性的研究举足轻重。动态腭位研究主要用于音段层面尤其是辅音的研究。电子腭位仪原为帮助腭裂儿童发音而设计，现也应用于二语语音教学和习得领域。目前，常见的动态腭位仪应用电子假腭以96点阵的方式（图3），实时记录舌与腭部的接触位置及面积，同步采集说话人的音频信号和动态腭位EPG信号，并在计算机语音声学分析软件界面上以图形的形式显示出来。学习者可以清楚地看到辅音的发音方法和发音部位（郑玉玲，2006），因而被称作“实时地看语言（seeingspeechinrealtime）（Fletch，1982）。借助动态腭位分析，学习者可实时调整自己的发音。

目前用于研究发音器官动作的仪器除了电子腭位仪外，电磁发音仪是另一行之有效的仪器，可用来实时观察发音器官的动作（李永宏等，2008）。

（4）唇形研究与二语语音习得

唇形研究与二语语音习得研究有着密切的关系。人脸的唇部是一个复杂的非刚体模型，其形变过程由分布在面部的肌肉组织的收缩以及人体下颌骨的运动来控制（郑放，1985）。通过专用设备“红外三维立体信号采集系统”可获取唇形的动态信息进行唇形研究，建立一个基于红外三维立体信号的英语发音唇形研究数据库，开发具有唇形视频功能的英语发音多模态教学系统，有效改进二语语音习得。

1.2.2基于语音合成的发音过程三维动画的多模态二语语音习得

1.2.3基于语音软件声学分析的多模态二语语音习得

需要说明的是，语音软件声学分析的确能帮助改善学习者的语音习得效果，但也存在一定的误差。因此，不能完全依赖声学分析结果，有时候还需参考母语者的直觉和建议。

2结语

1场景数据处理

2系统关键技术

2.1NGUI交互界面设计

在化工设备虚拟培训系统中，系统的界面设计采用NGUI提供的界面工具。NGUI[12]是严格遵循“KISS原则”(所谓“KISS原则”，是英语KeepItSimple，Stupid的首字母缩略字，是指在设计当中应当注重简约，也有人称之为“懒人原则”)，并用C#编写的Unity插件。NGUI提供强大的UI系统和事件通知框架。NGUI插件代码简洁，多数类少于200行代码，有着高效的性能，方便调节或扩展NGUI的功能[13]。系统主界面由五个功能区、右侧说明栏及三维场景区组成。整个界面的搭建基于Unit3D提供的NGUI控件，实现相机始终对着界面且只看到界面范围。以设备结构为例，设备结构菜单下分为自动拆解和手动拆解，利用NGUI插件，将下拉菜单的图片显示到界面中，并能够触发按钮下相应状态，实现后台程序功能展现。

2.2声音、字幕协同技术

作者：相茂英马纯永韩勇霍鹏王春单位：中国海洋大学信息科学与工程学院

关键词：12316；“三农”服务热线；系统功能

ApplicationResearchof12316Agriculture-countryside-farmerServicesHotlineandRelevantSystemsinJinanCity

ZHONGJu1，WANGBen-ping2

（1.JinanAgriculturalInformationCenter，Jinan250002，China；2.JinanAnimalHusbandryandVeterinaryBureau，Jinan250002，China）

Abstract：Thispaperexpoundedthestructuremodelandsystemfunctionoftelephonevoiceservicesystemofagriculture.Theseriesofsystemswerebuiltinordertorealizethattheuserscouldgetagriculturalinformationbyautovoiceservicesystem，agentresponse，shortmessagereceiving，videodiagnosisandsoon.Usersnotonlycouldchoosesuitableagriculturalexpertsaccordingtotheirneeds，butalsoknowthenewprogressofthequestionthattheypaidcloseattentionto.Someeffectivewaystosupplyagriculturalinformationservicesforagricultureareproved.Thewayscanmeetallkindsofneedsofusersforagriculturalinformationandhavebeenpowerfulsupplementwaystoserveforagriculture，ruralareaandfarmers.

Keywords：12316；agriculture-countryside-farmerserviceshotline；relevantsystem

收稿日期：2012-12-08

基金项目：国家星火计划重点工程项目（2005EA740120）；济南市经济和信息化委员会工业和信息化发展专项（Y09）

。

1济南市12316“三农”服务热线的系统构建模式

1.1构建基础及思想

1.2硬件及运行环境

1.3软件配置

网络操作系统为WindowsServer2008标准版，数据库系统为SQLServer2008，安装AG32语音平台软件、IVR语音管理服务软件、防病毒软件、V2Conference服务器软件、视频传输软件等。

1.4安全保障

为保障整个系统正常运行，机房防雷设施是A级防雷，地线则要求保证服务器良好接地，以确保整个系统不受雷电影响，语音卡信息不受静电影响。

1.5系统数据结构

此系统的数据资源建设主要采用数据库形式。将各类信息加工成适于语音播放的数据，存入自动语音数据库中供农民查询。内容包括三大类：一是综合快讯：提供国内近期农业方面的综合快讯，包括国内综合快讯、山东省综合快讯、济南市综合快讯；二是气象信息：一周内气象预测与指导信息；三是农事指导：为农户提供近期农事指导信息，主要包括作物农事、蔬菜农事、水果农事、畜牧农事。

2济南市12316“三农”服务热线的系统功能

2.1自动语音播放

2.2人工坐席答复

2.3数据查询统计

2.4短信订制发送

该系统采用中国联通、中国移动和中国电信三大电信运营商的短信接口资源，利用统一的接入代码1063-531-12316，建成集客户管理、农业信息订制和短信群发为一体的公益性短信服务平台。该平台利用先进的通讯技术和网络技术，实现与指定号码进行短信批量发送和自定义发送，可适时向全市使用手机的涉农工作者免费农业生产、经营、供求、价格、政策法规等多方面的农业短信息，用户也可在网上或通过手机订制多种农业信息。2010年济南市农业信息中心与中国移动合作建成“农事通”短信平台，在原有12316“三农”服务热线的基础上建设功能完备的3个系统——“农事通自动语音系统”、“农业短消息网上审核与展示系统”和“用户登记与管理系统”。组织农业专家根据生产需要编写实用短消息，通过此平台发送。该平台面向全市的行政村、农民专业合作组织、农产品行业协会、涉农企业、种养大户、乡镇农业部门人员等采集用户，目前短信发送至5万多用户。

2.5专家查询选择

2.6专家视频诊断

2.7文献检索浏览

2.8系统维护管理

管理员可以察看到各个线路的状态，可以通过系统进行预先的信息设置；通过数据维护工具可以实现信息内容修改、添加、删除。

3结语

[2]农业部市场与经济信息司.农业部关于开通“12316”全国农业系统公益服务统一专用号码的通知[J].农业科技与信息，2008（5）：4.

[3]农业部新闻办公室.农业部依托“12316”代码全力打造三农综合信息服务平台[J].农机质量与监督，2009（6）：4-5.

[4]秦吉.12316助推吉林农业农村信息化大发展[J].农产品市场周刊，2012（3）：8-9.

[5]王凯锋.农业科技信息服务的传播学思考——以吉林省12316热线为视点[J].江苏农业科学，2010（1）：382-384.

[6]李昕.农业科技信息传播服务的现状及对策——以山东诸城“五位一体”农业科技信息传播模式为视点[J].山东农业科学，2011（5）：117-121.

[7]曹承忠，张峻峰，王铮，等.北京市新型农业热线科技信息服务体系应用模式分析[J].贵州农业科学，2011，39（2）：228-231.

[8]张子良，尹卫，张亚琦，等.青海省农业科技信息语音咨询服务系统简介[J].青海农林科技，2010（1）：75-76.

[9]余向东，王海霞.费用低信息广传播快——河南省12316省级平台直通乡村[N].农民日报，2012-03-22（3）.

“大胆”是创业者的起点

如果说全世界的创业者有什么共同点，第一个恐怕就是“大胆”。

2011年5月16日，原本是安徽科大讯飞信息科技股份有限公司董事长兼总裁刘庆峰及其团队的致富日。这天，他们持有的科大讯飞股票，在深交所上市满3年解禁，14人团队集体造富，成为了亿万、千万富翁，38岁的刘庆峰本人财富接近8亿元。一同解禁的风投机构当天甩出了约2亿元市值股票，但这帮12年前就在一起的“科大校友团”一致决定都不套现，“再团结奋斗30年！”因为对刘庆峰和他的创业团队而言，十多年来目标就没有变过：他们要在全球范围内建立一个“语音产业帝国”。

在国内第一个见识刘庆峰胆略的是他的导师、中国著名的语音和信号处理专家王仁华教授。1997年底，刘庆峰在和王仁华的一次谈话中，当面对自己的导师“约法二章”：“第一，如果我要留下来，研究照样做，但我要做产业化，希望得到您的大力支持；第二，做产业化所获得的收益，要按照市场化机制分配给创业团队。”时年54岁，当时在国内语音信号处理领域拥有举足轻重地位的科学泰斗王仁华，竟然非常爽快的接受了24岁弟子的“苛刻”要求，还主动地为弟子成立公司牵线搭桥。

王仁华对弟子的支持是有原因的，根本而言，是他很了解自己弟子的“民族责任心”。当时，中文语音技术和市场几乎全部掌握在国外公司手中，而且Microsoft、IBM、Motorola等众多国际巨头纷纷在中国设立语音研究基地，国内语音专业优秀毕业生也基本外流。刘庆峰1992年进了王仁华的实验室，1995年22岁时就成为863项目研究组长，同样早就被一些外国研究院以高薪“锁定”了。但刘庆峰没有动摇过，他和王仁华谈过自己的想法：“一个国家的发展，甚至说能够生存下去，在不同历史时期都有一些堪称民族脊梁的读书人能够真的为这个民族做些事情。如果我到外企外国研究机构去，那我是帮他们在跟中国人打。凭我掌握的技术，在国外帮他们做的话，就有可能比国内做得好，那中国在语音这一块会被打垮的可能性将大大增加，所以我要有民族的责任心。”这话出自另外任何一个二十三四岁的小伙子，王仁华或许还要考量一番，但出自刘庆峰，他信。

刘庆峰天生就有一身遇到挑战就兴奋的胆气。中学考试时，别的同学在老师经过时会受干扰，刘庆峰则是越有老师看着，思路越活跃，做得越好。县里的数学、物理竞赛，每次遇到一眼看上去不知道怎么解的难题，刘庆峰的第一反应就是兴奋。如果一份卷子从头到尾做下来都很轻松，他反而会很失望：大家都得100分，多没意思！读研时他选择的产业化切入点语音合成，是一个非常复杂的交叉科学，很多科研院所做了十几年的研究一直都没法突破。而刘庆峰在1997年的“挑战杯”比赛中初步形成了思路，1998年又和所在的团队一起提出几个创新方法，使科大的产品在全国范围内首先达到了可实用阶段。而他突破的原因只有一个：坚持原创！“当时觉得这个课题很难，是个硬骨头，绝大多数的人绕了一圈根本就没有找到突破口就出去了。但我愿意去啃它。我不像别人那样主要依靠国外的资料来做，师傅领进门以后，我更喜欢自己摸索，提出创新的方案。”

今时上市的钟声袅袅，往昔少年的誓言铿锵。正是刘庆峰14年前坚持自己原则的胆略，成就了今天市值百亿的科大讯飞，更成就了生机勃勃的中国语音产业集群。

“警醒”是创业者的美德

大胆而又能成事者，背后往往是超乎常人的警醒。

和当时很多大学生创业者最大的困惑相同，刘庆峰创业路上的第一个难题是投资资本与科研方向的不匹配。创业仅仅一年，刘庆峰就发现当时的投资方虽然有很强的资金实力，但不懂语音行业，“今天做工商查询，明天要让做会说话的电脑，后天又让做PDA”，研发失去了方向，并不符合自己创业的初衷。看看自己弥足珍贵的创业团队：中国科技大学少年班的天才、高考状元、黑客版的版主、科大BBS站的站长等等“高人”，大家都把自己未来托付在他这位“班长”和“大师兄”身上，刘庆峰决定要独立。

1999年6月，刘庆峰不惜以负债的方式，成立了安徽硅谷天音信息科技有限公司，大家一起啃黄瓜吃盒饭，到年底没钱了只好借钱给大家发工资……即便如此，原来团队中的所有的员工都跟新公司签了三年的劳动合同和保密协议，没有一个人提待遇，没有一个人提福利，就因为是刘庆峰第一个签了字。经过4个月艰苦的科研攻关，新公司就有了很明确的产业化方向。合肥市的市长了解到公司的困境，亲自带着美菱集团的董事长、安徽省信托投资公司的总经理到公司考察，认真地听取公司的产业化报告后，最终决定由安徽省信托、美菱集团、合肥永信三家重新注资。硅谷天音也整体技术入股了新公司科大讯飞，科大讯飞不只回购了自身的专利技术，还由原来的300万注册资产升值为5000万，在产业化方向上把握了自己的命运。

刘庆峰的底气很足：“最重要的是，中国语音领域中最有优势的老一辈大师们都认为，语音是文化的基础和民族的象征，理所当然要为中国人付出。”事实上也是如此，从1980年就从事人机语音通信的王仁华教授、中科院声学所孙金城教授、中国社科院语言所当时九十余岁高龄的吴宗济教授等老专家的加入，使中国对声音、语气、语调几十年的研究积累被用到了计算机上，讯飞的科研水平实现了质的飞跃。2000年7月，先进的汉语语音平台成功建立，英特尔、联想、贝尔阿尔卡特、东软等软件开发商接踵而至，年底公司就开始在行业内名声鹊起。

经此一役，刘庆峰坚信，技术进步和技术推广的主动权永远是拉动公司发展的两驾马车。而创业者，必须时刻警醒，把前进的缰绳紧紧地攥在自己手中。

“坦白”是创业者的本色

这条“双振兴之路”正是对创业者最大的考验。

刘庆峰在寻找突破口，结果2004年、2005年间，华为的一次公开竞标成了讯飞的转折点。当时参加竞标的除了讯飞，还有IBM，ScanSoft以及Nuance。在投标开始后，几家海外巨头引领价格一直不断往下降。但到了一定程度后，讯飞不降了。“华为是龙头型企业，如果给他们的价格降下来了，我们的价格就不可能上调了，整个产业都将入不敷出。”刘庆峰公开坦言。最后，华为选择了技高一筹且以诚待人的讯飞。

技术领先和专注经营是刘庆峰最终赢得市场的基点。“如果微软只是在做语音，那是最可怕的；如果有3家巨头在做，但都是产业方向的一部分，就不可怕了；如果除了这些巨头还有几十家在做，那么就一点也不可怕了。”刘庆峰觉得自己赢在用一个拳头和这些机构的一个指头在竞争。对刘庆峰而言，“语音是唯一的方向”。此后，讯飞囊括了国际上所有语音软件赛事的冠军，开始在市场份额上占据超过半数的主导权，更保持高速增长的赢利能力，2005年到2007年间，其电信领域语音合成平台产品销售收入年均增长135%。2008年，科大讯飞在深圳证券交易所上市。

“胸怀”是创业者的未来

拿到上市批文的第二天，刘庆峰把企业的核心人员招在一起开会。“上市并不是终点，讯飞离1999年设定的目标（目标是销售百亿，当时只有四十分之一）都还差着一大截。”而他对始终支持讯飞成长的联想投资也说了两句话，“实在抱歉，以前的估值高了一点。你们放心，再过三五年，讯飞完全有希望是联想投资各项目中收益率最高的”。

刘庆峰的表白是有依据的。

2系统主要功能模块的具体实现

系统在VisualStudio2008平台中采用C#语言开发，系统数据库使用的是SQLServer2008数据库。根据系统的功能需求，设计了业务平台、实况资料、指导产品、预报制作、服务对象管理、预警信息、灾情信息检索、气象灾害防御等8大模块23个子模块，以菜单形式分布在平台主界面上。

2.1实况查询模块设计

2.2服务对象管理模块设计

2.3预警信息模块设计

2.4灾情检索模块设计

3小结

《财经天下》周刊=EW

胡郁=HY

EW：科大讯飞的业务布局情况现在是怎样的？

EW：创业初期遇到过哪些突出的问题？

HY：我们是1999年底成立的，到2004年才实现盈亏平衡，在这期间确实遇到了很多问题。主要是两个方面：首先，那时候技术并不成熟。在2000年的时候，国内有很多语音技术创业公司，科大讯飞是唯一一家生存下来并且发展壮大的，因为我们当时选择的路径还算成功，语音合成在当时是相对成熟点的技术，虽然让机器说话也说不太好。那些选择做语音识别的公司，很多没有成功，就是因为当时这个技术太不成熟。

另外，在中国做生意，比较容易成功的商人，可能是比较懂人际关系的，有一定市场经验的，但我们那时候都是一群学生出来创业，包括董事长刘庆峰，1998年还在读博士，1999年出来，对商业模式、公司管理等方面没有什么概念，经历了很长的一段摸索期。

在中国，做产品和市场的人，比做技术的人更容易成功，这是一个普遍规律。在中国做技术，很多都是在国家体制内，像研究院这样的地方或者国营企业;如果要民营的话，那么在中国的环境下寻找到合适的商业模式并且做大其实是很难的一件事情，所以中国民营的科技创新公司不多。

EW：发展到现在，经历过哪些关键时刻？

HY：我觉得有这样几个关键时刻：第一个是在2000年的时候，我们第一次能够把我们的语音合成技术卖给大客户，就是华为。那时我们的软件还很不稳定，经常崩溃，华为的团队说我们把他们当成测试员了。然后我们的创始人团队，三天三夜没睡觉，把软件做稳定了，就是为了能够通过华为的测试。

第二个关键时刻是，我们在2004年实现了盈亏平衡。当时我们找到了一种可行的商业模式――为一些大的客户提供服务，比如说呼叫中心、银行、电信等，赚到了一些钱。而同时期的很多同样的公司要么没活下来，要么就发展得很小。

第三个关键时刻就是我们2008年上市，这标志着我们在资本市场上开始有一个很好的渠道，我们可以更快地发展。

还有一个关键时刻就是，在2009年的时候，我们注意到，移动互联网来得很快，手机输入这块将会有需求，我们就做了一个讯飞语音输入法，现在是国内第二大输入法，第一是搜狗。另外，我们做了一个语音云开放平台，现在已有16万开发者连接到我们平台上，连接的设备超过了8个亿。这两者让我们在移动互联网时代能够占据一席之地，也让我们在消费者业务层面有了很大的一个突破。

最后一个关键时刻就是，我们在2009年的时候，开始在教育业务上有了突破。我们做到了可以用机器评价学生发音的准确程度，还可以评价英语口语的表达水平。另外，我们可以让机器识别出手写的卷子，实现自动批改。我们现在要攻克的是提高机器的理解能力，让机器人能够参加高考。目前机器人参加高考勉强能及格，我们原来的计划是10年内让机器考上一本，现在改成3年内考上一本。人和机器其实是相反的：人0到6岁学常识，这对人是比较容易的，人培养理解能力很容易，但是学习知识很难;而机器能够装下很多知识，但是它不懂常识，所以有人说机器达到了6岁小孩的水平，那是用人的成长阶段去衡量，其实是错的。

EW：为什么科大讯飞会选择教育这个领域？

HY：一方面，就是我们想为国家做点贡献，我们的技术能够帮助教育行业更先进;另一方面，就是我们觉得教育有比较广阔的商业前景。我们有的是政府采购给学校，也有直接卖给家长和学生的产品。我们是希望能够成为国内教育方面的人工智能的最大参与者。

我们进入教育行业，首先是从普通话水平测试开始，然后是英语口语水平测试，后来我们进入英语教学的课堂，提供一些智能设备和软件，然后我们又参与了考试，实现自动批改。学校里面会有很多智能化的系统，我们把这些东西综合起来，提供一个整体的方案。现在我们是国内教育领域用人工智能提供整体解决方案的最大厂商。

EW：这些年来，科大讯飞有哪些事情是具有开拓性意义的？

HY：第一个我觉得是把语音合成能够做到实用化，这是公司成立的基石;第二就是把语音识别做到了可用化――我们不是最早做语音识别的，但我们是把技术做得最成熟的;第三个就是我们将语音测评带进学校，开创了一个新局面，这是我们商业模式上的创新，我们现在还在努力寻找其他新的商业模式。

EW：相较时下众多创业企业，你认为科大讯飞最为显著的特色是什么？它和别的互联网技术公司有什么差别？对于创业17年来公司营收仍主要依靠政府补贴这一颇受争议的商业模式，科大讯飞轮值总裁胡郁直言，这与以技术为核心的中国初创企业的特殊性有关，如果早期没有政府扶持，这类企业将难于生存。

HY：科大讯飞本质上是一个科技创新型公司，科技创新型公司的标准，不是看它赚了多少钱，而是看它的技术是不是世界上最先进的。我们最突出的特点是，我们一直在做核心技术创新和原始创新，不是在别的技术基础上进行微创新，而是在做核心技术的突破性创新。

我觉得我们和别的互联网技术公司最大的差别是，我们比较沉得住气，方向很明确。很多公司什么方向热就做什么，比较浮躁，我们相对来说比较执着于自己原来确定的方向。

很多人对我们的评价是，做了十分才说七分。这是优点也是缺点：优点是大家对我们的印象是比较扎实的，缺点是影响力方面可能宣传不够。

EW：有人说你们在风格上更像一家硅谷公司。你认同这种观点吗？

HY：硅谷技术创新型公司的最大特点是，它不仅仅技术领先于全球，它的商业模式也是领先于全球的，而且美国公司有个很重要的特点，它们是全球化的公司。中国虽然现在有很多互联网企业，但在全球化方面还是不够。科大讯飞现在在语音技术方面，无论是合成还是识别，都能够在中文领域做到最先进，但我们也有需要突破的地方。很多人觉得我们低调，其实我觉得有一个原因是，我们的商业模式不能够跟当前世界上最主流的商业模式吻合，所以这也是科大讯飞面临的最大的挑战。

EW：能否在商业模式上稍作展开？

HY：我们原来的商业模式是ToB的，就是售卖技术，用技术跟别人合作。现在我们的目标是，用技术引起一个产业的突破，从而建造新的产业生态系统。我们现在探索的新的商业模式是，更靠近消费者，就是要着重ToC。这不一定得直接面对消费者，我们可以用更靠近消费者的业务来达到这个目标，比如我们和汽车厂商合作，汽车内的语音业务就是直接面对消费者的。

EW：国内语音市场这些年在你看来有哪些重要变化？

近几年有两个新的变化：一个是以BAT为代表的互联网公司已开始进入语音市场，并且投入了很大力量。但他们做语音是为自己的生态服务的，并不是想从这上面赚钱，实际上也赚不到什么钱。现在专业做语音的最大的公司应该是科大讯飞。另外一个就是，很多小的创业公司也开始进入这个市场，但做得都不是太好，技术很重要。

EW：巨头的进入会给你们带来压力吗？

HY：当然。压力不是来自于技术，我们的技术是最先进的，压力来自于商业模式。这个没办法去模仿哪家公司，都要靠自己慢慢去摸索。一个公司如果想要长期保持领先，不仅仅是技术能力，商业模式上一定要走出自己的道路并建立起自己的生态。

我们原来做的是ToB，现在ToB的公司很多，如果想要成为一个生态的话，只有这个肯定不够。我们一定要让生态里有C端用户，这就会有很多变现方式，只要我们提供的服务是用户需要的，并且是高质量的，我们就可以从用户手里赚到钱。

EW：语音市场的竞争还不算太激烈吧？

HY：在发展的过程中，如果大家朝着一个方向的话，自然而然就会有竞争。但是现在的问题在于，我们并不知道将来的物联网时代会发展成什么样，谁也没有一个准确的方向。在一个新的时代里，观察过程会有三个阶段：第一阶段是混沌期，就是大家都不知道将来会发生什么;第二阶段叫形成期，就是大家已经有方向、有规划地发展了;第三阶段叫决胜期，就是各家开始激烈竞争赛跑，像滴滴和快的当时一样。语音市场现在处于混沌期到形成期的过渡阶段，大家都不知道怎么干，还在互相观望，互相挖点技术人才，摸索摸索方向。

EW：科大讯飞会是第一个找到方向的吗？

EW：科大讯飞得到过一些负面评价吗？

HY：讯飞的体量在去年的时候只有二十多亿，今年也就四五十个亿。现在市盈率已达到150倍。我们的市盈率不太稳定，因为大家看好一个东西，但这个东西一直没出来，所以就会不稳定。很多人说我们都在靠政府补贴，其实是这样，一个以技术为核心的公司，在中国如果不依赖政府，肯定成长不起来，但过度依赖政府，将来的空间会少一点。我们一开始的确就是依赖政府补贴，否则一下子进入市场，是养活不了自己的，只有在跨过一定的技术门槛后，我们才能靠市场养活自己。我们现在已经在找更合适的商业模式，以减少对政府的依赖。我们现在看到很多人工智能公司，他们已经找到了赚钱的方法，但这对我们来说仍然是个挑战。

EW：其实现在很多人在怀疑你们的盈利能力。

HY：这种怀疑是对的，我们虽然说在很多测评上面取得了不错的成绩，但是并没有达到让大家信服的程度。事情还没成之前，你说你是英雄，谁信？武松打虎，得把老虎打死了，结果出来了，大家才把他看成英雄，现在我说我能打死老虎，谁信呢？我们现在就是在努力证明自己。

EW：相较北上广深，合肥的商业环境是不是差了一点？为什么一直留在合肥？

HY：坦白讲，合肥这个地方很适合做研究，但商业氛围和商业创新环境确实和北上广深杭相比是有巨大差距的。但我们还是一直留在合肥，如果我们不是在合肥，我们的人早已经被挖了七八遍了，在我们这边拿50万年薪的人，腾讯可以给150万。我们为什么能在核心技术上持续深入，并且取得领先世界的水平，就是因为在合肥能够真正静下心来做研究。在北京给他100万的薪水，马上就会有人拿200万来挖，工作一有变动，研究就会停滞下来。北上广太浮躁了，这些地方房价那么高，让人怎么安心做研究？我们现在在京津冀，上海广州深圳杭州都有分部，但我觉得做研究的人，还是来合肥好，一线城市安不下心来。

EW：如果你们工资比其他公司低的话，用什么来吸引人才？

HY：追求。世界上还是有一批有追求的人，就是在中国用人工智能改变世界。

EW：资本对于你们是一个什么作用？

HY：我觉得一个公司一定要借助资本的力量，资本是最重要的。我们不能只靠追求来生活，我们要给这些做出巨大成绩和贡献的人体面的生活。有了资本，我才能真正吸引到优秀的人，解决他们的后顾之忧，他们想要去旅游的时候就能够去世界上任何一个国家去旅游，我们要给他们与能力匹配的薪资。

EW：除了受到资本的青睐外，你们自己也有投资。你们在投资上的构想是怎样的？

HY：战略投资是围绕着我们的战略布局来投。我们现在有三大战略板块，教育、智慧城市，还有消费者业务。

EW：科大讯飞的生态能描述一下吗？

HY：我们现在首先要在教育这个方向做成一个核心技术支撑的开放平台，大家有什么内容都可以放上来，可以对接到学校;在智慧城市方面，我们希望能够通过大数据和人工智能，为交通、社会信息化管理、医疗等提供智能服务;最后在消费者业务上，我们要建立生态入口，让用户用语音的方式与机器进行交互，让机器越来越了解用户的需要。

EW：现在每年研发投入有多大？

HY：收入的25%。主要用于几个方面，核心技术、云计算和各个领域应用的开发。我们现在还有很多需要突破的，像核心技术现在其实还没有达到我们想要的水准，我们还要持续努力，因为技术爆炸是一个持续的过程，不是说一瞬间的，而是在一点点改进中获得的。

EW：作为科大讯飞重点攻坚的领域，目前人工智能在你看来处于什么阶段？

HY：现在业界谈人工智能分成三个阶段，计算智能、感知智能和认知智能。人工智能目前处于感知阶段。人在计算智能上比机器人差，感知智能上好一点，认知智能上会更好，所以说，我们现在的切入点叫语音和语言为入口的认知革命。人类最早成为世界的统治者是因为人类发生了认知革命而不是农业革命。机器人也需要认知革命，机器人认知革命的第一i就是先理解语言，我们现在的使命是要让机器能听会说，能理解会思考。接下来我们把这个技术跟很多行业，如医疗、卫生、法律等结合起来。

EW：人工智能为什么这两年这么火？过几年它还会这么热吗？

HY：人工智能能火起来，主要是因为核心算法、数据量和应用模式三个方面成熟了，因此它在技术上可以大规模应用于产业。科大讯飞在核心技术方面还比较有优势，在数据的收集上，现在的“讯飞语音云”用户超过8亿，开放云平台的应用项目8万多个，我们正在尝试各个场景的应用。人工智能过几年是不是还能这么火还很难说，现在大数据已经不那么热了，就是大家接受了这个概念以后就没人天天喊了。

EW：现在你们的挑战主要来自哪些方面？

EW：在产品出口方面，有没有遇到一些问题？

HY：问题很大。我们的产品在国际上还没有产生什么效益。我们最大的问题是，语言是个双刃剑，我们可以挡住外国产品进入中国，但是我们进入别的国家也很难。我们现在英语做得不错，但在西班牙语、法语、德语等其他语言国家，我们就不行。

【关键词】单片机；语音信息；语音信号

0.引言

随着数字化信息处理、合成技术和大规模集成电路的不断进步，各种语音合成芯片应用不断扩大。在其控制之中大多都是采用PC机或微控制器的方法，这种方法的控制手段不但需要硬件的支持，同时也需要对软件系统和各种指令进行严肃处理。伴随着目前社会技术的不断发展，语音信息采集与处理措施要求不断增加，在处理之中，是通过将模拟语音信号通过相应软件和系统转变形成数字信号，再由单片机控制储存在存储器中，形成一套系统的工作流程。

1.芯片介绍

单片机作为一种集成电路芯片，是通过采用各种超大规模的集成电路技术将具有各种数据处理和函数计算能力的中央处理器、随机处理器以及定时器等终端系统和功能集成到一个完整的硅片之中形成一个完善而又系统化的微型计算机系统措施，这种电路芯片在目前被广泛的应用在各种工业生产和控制领域之中。伴随着社会的进步，单片机呈现出其顽强的生命力，以高速发展的优势迅速的应用在各个信息处理之中。

1.1ISD4OO4芯片介绍

在目前ISD公司的单片机构成中主要是通过信号输入系统、信号输出部分、存储系统、采样时钟部分和SPI部分六部分构成。其在构成中信号输入部分—音频信号放大器和五极点抗混叠滤波器：而信号输出部分在控制的过程中是通过平滑过滤器和自动静噪处理器来实现的。存储部—非易失性多电平模拟存储阵列；采样时钟部分一内部时钟振荡器和调节器：SPI—录、放、快进等操作的SPI接口；电源接口部分。

1.2AT89C52芯片介绍

AT89C52芯片是一种低功耗、高性能的片内含有8KB快闪可编程／擦除只读存储器的8位CMOS微控制器，使用高密度、非易失存储技术制造，并且与8OC31引脚和指令系统完全兼容。芯片上的FPEROM允许在线编程或采用通用的非易失存储编程器对程序存储器重复编程。

2.系统方案设计

2.1语音输出电路

LW386是一种集成音频功放，同时其中具有着自身功能消耗低，电压的增长稳定，对电源电压的控制范围较为合理，单片机在应用的时候失真效率和要求较低。尽管LM386的应用非常简单，但稍不注意，特别是器件上电、断电瞬间，甚至工作稳定后，一些操作(如插拔音频插头、旋音量调节钮)都会带来的瞬态冲击，在输出喇叭上会产生噪声。

2.2录音电路

2.3放音电路

本系统可以主要分为三部分：单片机的控制部分、放音部分和显示部分。本文的控制部分主要由单片机89C52构成，包含必要的按键电路、复位电路和看门狗电路等电路，放音部分主要由ISD4OO4构成。

3.软件设计

3.1SPI口设计思想

模拟元件正常连接后，对芯片内部信息进行分段管理的操作。从上面的分析可知，只要给语音芯片的MOSI引脚输入8位控制命令就可使ISD芯片从当前地址执行相应的录放操作；同样使用8位的读指令，就能在串行输出MISO弓{脚获得VOF和EOM信息。在时钟输入SCLK弓{脚端输入8个串行时钟就能保证5位指令的输入和芯片内部8位信息的输出。但是，MOSI、MISO、SCLK、SS的各引脚，必须满足SP的时序关系。

3.2上电顺序

程序工作思想电路上电后，程序首先完成程序的初始化，随后查询按键状态，进入系统待机状态。如果有按键按下，则转去执行按键指向的工作程序。按键包括放音键，程序将首先判断是去还是回，并点亮相应的指示灯。自动读出第一段的放音内容。如果不是首次按下，程序则首先判断当前位置，并以该位置为依据获得存放该站放音内容的首地址。调用放音子程序，读入前面获得的本次放音内容首地址，开始放音。

4.结束语

在传统的语音录敖过程中，语音信号要经过设备豹接受后再转化为模拟电信号，遥过前置放大器把语音信号放大，通过带通滤波之后。去掉多余的干扰，再经过A／D转换为数字信号，控制器对其进行处理和存储。之后再由D／A转换为模拟信号，达到放音的目的。使用这种方法既复杂又容易使声音失真。所以，本文介绍了一种单片语音处理芯片ISD4OO4。通过对ISD4OO4语音芯片的简单介绍，熟悉了ISD4OO4的基本应用。通过对基于单片机控制系统的设计实现了语音的录入和播放。并阐述了系统工作各部件的性能特性，基于微处理系统的设计实现了录音和放音。此系统设计灵活，成本低，语音器件抗干扰性强，应用效果良好。[科]

THE END

语音合成技术通用12篇

群发短信下载2024安卓最新版手机app官方版免费安装下载

短信群发播放器官方版下载短信群发播放器app下载v4.87

短信群发软件短信群发一键群发

号码群发短信平台下载什么软件好一点,电话号码群发软件,短号发短信收不到,发短信多用什么卡,发短信要开流量吗,如何发送短信,群发短信内容村委,短信群发的办法,群发短信内容村委,手机号码群发短信,

捷越联合最近又发短信了怎么办

组态王常用函数

短信平台短信群发软件使用说明

定时达人安卓版下载定时达人app官方版下载v2.1.1最新版

华为手机群发图片发不了是怎么回事儿,华为什么发不了图片,106短信平台,安卓手机群发信息,vivo群发短信,群发短信费用标准,短信群发算一条吗,短信群发哪家好,群发短信iphone,发短信有钱吗,

品质提升方案从哪几方面着手(模板11篇)

语音合成技术通用12篇

什么软件可以给手机发短信(用电脑发短信的软件)