一句话识别移动端SDK接口有哪些智能语音交互(ISI)

NUISDK提供更小的工具包和更完善的状态管理。为满足不同用户需求,NUISDK既能提供全链路的语音能力,同时可做原子能力SDK进行使用,并保持接口的统一。

访问类型

说明

URL

外网访问(默认上海地域)

所有服务器均可使用外网访问URL(SDK中默认设置了外网访问URL)。

ECS内网访问

使用阿里云上海、北京、深圳ECS(即ECS地域为华东2(上海)、华北2(北京)、华南1(深圳)),可使用内网访问URL。ECS的经典网络不能访问AnyTunnel,即不能在内网访问语音服务;如果希望使用AnyTunnel,需要创建专有网络在其内部访问。

下图展示iOSSDK、AndroidSDK的交互流程。

服务端的响应除了音频流之外,都会在返回信息的header包含本次识别任务的task_id参数,是本次请求的唯一标识。

初始化参数如下。

参数

类型

是否必选

workspace

String

工作目录路径,SDK从该路径读取配置文件。

app_key

token

请确保该Token可以使用并在有效期内。

Token可以在初始化时设置,也可通过参数设置进行更新。

device_id

设备标识,唯一表示一台设备(如Mac地址/SN/UniquePsuedoID)。

debug_path

debug目录,当初始化SDK时的save_log参数取值为true时,该目录用于保存中间音频文件。

save_wav

当初始化SDK时的save_log参数取值为true时,该参数生效。表示是否保存音频debug,该数据保存在debug目录中,需要确保debug_path有效可写。

客户端发起一句话识别请求前需要进行参数设置,各参数由SDK中setParams接口以JSON格式设置,该参数只需设置一次。各参数含义如下。

如果需要更新,则进行设置。

service_type

Int

需要请求的语音服务类型,一句话识别为“0”。

direct_ip

支持客户端自行DNS解析后传入IP进行访问。

nls_config

JsonObject

参数nls_config配置如下。

sr_format

音频编码格式,支持OPUS编码和PCM原始音频。默认值:OPUS。

如果使用8000Hz采样率,则只支持PCM格式。

sample_rate

Integer

音频采样率,默认值:16000Hz。根据音频采样率在管控台对应项目中配置支持该采样率及场景的模型。

enable_intermediate_result

Boolean

是否返回中间识别结果,默认值:False。

enable_punctuation_prediction

是否在后处理中添加标点,默认值:False。

enable_inverse_text_normalization

ITN(逆文本inversetextnormalization)中文数字转换阿拉伯数字。设置为True时,中文数字将转为阿拉伯数字输出,默认值:False。

customization_id

自学习模型ID。

vocabulary_id

定制泛热词ID。

enable_voice_detection

是否启动语音检测。开启后能够识别出一段音频中有效语音的开始和结束,剔除噪音数据。默认值:False(不开启)。

max_start_silence

max_end_silence

当enable_voice_detection设置为true时,该参数生效。表示允许的最大结束静音时长。单位:毫秒,取值范围:200ms~6000ms。超出时长服务端会发送RecognitionCompleted事件,结束本次识别(需要注意的是后续的语音不会继续进行识别)。

extend_config

若需要设置交互协议支持但是接口说明中未说明的参数,可通过此万能设置接口进行配置。具体设置方法请见代码示例。

客户端循环发送语音数据,持续接收识别结果。

客户端发送停止一句话识别请求,通知服务端语音数据发送结束,停止语音识别,服务端返回最终识别结果:

{"header":{"namespace":"SpeechRecognizer","name":"RecognitionCompleted","status":20000000,"message_id":"10490c992aef44eaa4246614838f****","task_id":"4c3502c7a5ce4ac3bdc488749ce4****","status_text":"Gateway:SUCCESS:Success."},"payload":{"result":"北京的天气。"}}header对象参数说明:

namespace

消息所属的命名空间。

name

消息名称。RecognitionCompleted表示识别完成。

status

状态码。表示请求是否成功,见服务状态码。

message_id

本次消息的ID,由SDK自动生成。

task_id

任务全局唯一ID,请记录该值,便于排查问题。

status_text

状态消息。

payload对象参数说明:

result

一句话识别最终结果。

状态码

状态消息

原因

解决方案

40000000

默认的客户端错误码,对应了多个错误消息。

用户使用了不合理的参数或者调用逻辑。

请参考官网文档示例代码进行对比测试验证。

40000001

Thetoken'xxx'hasexpired;

Thetoken'xxx'isinvalid

40000002

Gateway:MESSAGE_INVALID:Can'tprocessmessageinstate'FAILED'!

无效或者错误的报文消息。

40000003

PARAMETER_INVALID;

Failedtodecodeurlparams

用户传递的参数有误,一般常见于RESTful接口调用。

40000005

Gateway:TOO_MANY_REQUESTS:Toomanyrequests!

并发请求过多。

如果是试用版调用,建议您升级为商用版本以增大并发。

如果已是商用版,可购买并发资源包,扩充您的并发额度。

40000009

Invalidwavheader!

错误的消息头。

如果您发送的是WAV语音文件,且设置format为wav,请注意检查该语音文件的WAV头是否正确,否则可能会被服务端拒绝。

Toolargewavheader!

传输的语音WAV头不合法。

40000010

Gateway:FREE_TRIAL_EXPIRED:Thefreetrialhasexpired!

试用期已结束,并且未开通商用版、或账号欠费。

40010001

Gateway:NAMESPACE_NOT_FOUND:RESTfulurlpathillegal

不支持的接口或参数。

请检查调用时传递的参数内容是否和官网文档要求的一致,并结合错误信息对比排查,设置为正确的参数。

比如您是否通过curl命令执行RESTful接口请求,拼接的URL是否合法。

40010003

Gateway:DIRECTIVE_INVALID:[xxx]

客户端侧通用错误码。

表示客户端传递了不正确的参数或指令,在不同的接口上有对应的详细报错信息,请参考对应文档进行正确设置。

40010004

Gateway:CLIENT_DISCONNECT:Clientdisconnectedbeforetaskfinished!

在请求处理完成前客户端主动结束。

无,或者请在服务端响应完成后再关闭链接。

40010005

Gateway:TASK_STATE_ERROR:Gotstopdirectivewhiletaskisstopping!

客户端发送了当前不支持的消息指令。

40020105

Meta:APPKEY_NOT_EXIST:Appkeynotexist!

使用了不存在的Appkey。

40020106

Meta:APPKEY_UID_MISMATCH:Appkeyandusermismatch!

调用时传递的Appkey和Token并非同一个账号UID所创建,导致不匹配。

请检查是否存在两个账号混用的情况,避免使用账号A名下的Appkey和账号B名下生成的Token搭配使用。

403

Forbidden

使用的Token无效,例如Token不存在或者已过期。

请设置正确的Token。Token存在有效期限制,请及时在过期前获取新的Token。

41000003

MetaInfodoesn'thaveendpointinfo

无法获取该Appkey的路由信息。

41010101

UNSUPPORTED_SAMPLE_RATE

不支持的采样率格式。

当前实时语音识别只支持8000Hz和16000Hz两种采样率格式的音频。

41040201

Realtime:GET_CLIENT_DATA_TIMEOUT:Clientdatadoesnotsendcontinuously!

获取客户端发送的数据超时失败。

客户端在调用实时语音识别时请保持实时速率发送,发送完成后及时关闭链接。

50000000

GRPC_ERROR:Grpcerror!

受机器负载、网络等因素导致的异常,通常为偶发出现。

一般重试调用即可恢复。

50000001

52010001

Gateway:CLIENT_ERROR:Emptyaudiodata!

没有音频数据。

建议参考公共云示例代码,请求时发送音频数据。

40000004

Gateway:IDLE_TIMEOUT:Websocketsessionisidlefortoolongtime

请在建立链接后和服务端保持交互,比如持续发送语音流,您可以在采集音频的同时进行发送,发送结束后及时关闭链接。

40010002

Gateway:DIRECTIVE_NOT_SUPPORTED:Directive'SpeechRecognizer.EnhanceRecognition'isnotsupported!

发送了服务端不支持的消息指令。

Gateway:DIRECTIVE_INVALID:Toomanyitemsfor‘vocabulary'!(173)

热词数量设置过多。

请参考API进行正确设置。

41010104

TOO_LONG_SPEECH

发送的语音时长超过限制,仅在一句话识别接口上出现。

一句话语音识别支持60s以内的音频,如果超过60s,建议调用实时语音识别接口。

THE END
1.网易云信IM即时通讯云4步接入,1天实现稳定的APP私聊、群聊、聊天室、圈组功能 免费试用了解详情 2023泛娱乐出海 白皮书下载 100万分钟音视频服务 一站式接入服务,高集成性SDK,全面实用的组件库 网易27年技术积累 研发资历成熟 27年通信领域研发深耕亿级产品线上验证移动端方案优化7年以上 https://netease.im/m/
2.CoreSpeechKit丨华为开发者联盟语音识别 端侧语音识别技术,帮助您将语音转换为文本,支持实时短语音识别。 了解更多 语音合成 端侧语音合成技术,帮助您将文本转换为语音。 了解更多 服务场景 语音输入 可高效实现将实时语音转写成文字,解放双手,适用于语音聊天、语音搜索、语音指令、语音问答等多个应用场景。 https://developer.huawei.com/consumer/cn/sdk/core-speech-kit/
3.实时语音SDK语音通话SDK语音聊天SDKZEGO即构实时语音SDK,四步构建语音聊天应用。业界一流的回声消除、噪音抑制、音量增益表现,满足语音通话、语音聊天室、团队开黑、线上KTV、狼人杀、智能硬件,客服中心等业务场景。https://www.zego.im/product/realtime-audio
4.在线聊天sdk腾讯云开发者社区android聊天sdk 即时聊天 sdk 即时聊天sdk 语音聊天sdk 实时聊天sdk qq聊天sdk 在线语音聊天 jsp在线聊天 js在线聊天 html 在线聊天 php 在线聊天 在线asp聊天 在线聊天asp html在线聊天 asp在线聊天 Socket在线聊天 python在线聊天 腾讯云 聊天sdk 相关·内容 https://cloud.tencent.com.cn/developer/information/%E5%9C%A8%E7%BA%BF%E8%81%8A%E5%A4%A9sdk-video
5.Unity接入声网SDK实现音频通话——自己动手做一个语音聊天所以就赶紧来用Unity结合声网做一个语音聊天房! 我也是第一次接入声网的SDK,可能有些地方不是很熟练,正好写一篇文章来记录学习一下~ Unity 接入 声网SDK 实现 音频通话 先简单的介绍一下声网,不了解的小伙伴可以简单认识一下~ 声网 官网:https://www./cn/community/ http://www.360doc.com/content/21/1201/13/77937936_1006683463.shtml
6.《is语音第三方sdk信息共享清单》使用目的:语音聊天 使用场景:好友之间1v1的语音聊天 合作方主体:上海兆言网络科技有限公司 收集方式:SDK采集 合作方官网链接:https://www.agora.io/cn/ 合作方隐私政策:https://www.agora.io/cn/privacy-policy 18.科大讯飞 涉及个人信息:语音内容、文本信息、图像信息、语音转写后的文本信息、设备信息(设备号(IMEhttp://www.ispeak.cn/gxqd.html
7.腾讯游戏实时语音SDK的接入与配置腾讯游戏实时语音SDK(Software Development Kit)是一款专门为游戏开发者提供的实时语音通信解决方案。它可以在游戏中实现低延迟、高质量的语音通话和语音聊天功能。腾讯游戏实时语音SDK支持跨平台开发,包括但不限于Android、iOS和Windows等操作系统。 2.2 系统要求 https://wenku.csdn.net/column/4v4fg6erww
8.网易云信音视频通话SDK实时语音通话SDK低延迟互动直播音视频通话,是网易云信基于多年实时互动通信场景客户服务经验,为企业和个人开发者打造的一站式实时互动通信方案中的核心产品之一。音视频通话产品适用于各种实时音视频互动场景,例如语音聊天、1对1视频通话、多人视频交友、社交连麦直播、电商互动直播、金融视频面签、在https://www.yun88.com/product/6839.html
9.uniapp实现android语音播报uniapp实时语音聊天uniapp实现android语音播报 uniapp实时语音 聊天 uni-app 是目前比较火的跨平台框架,腾讯云即时通信 IM 正式推出支持三大平台的 uni-app TUIKit。 TUIKit 是基于 IM SDK 实现的一套 UI 组件,其包含会话、聊天、群组管理等功能,基于 UI 组件您可以像搭积木一样快速搭建起自己的业务逻辑。https://blog.51cto.com/u_16213592/9842336
10.第三方及关联方SDK目录(二)关于SDK、IMEI、MAC的使用 为向您提供更便捷、更优质的产品及/或服务,努力提升您的体验,我们会15、科大讯飞语音SDK 包名:com.iflytek.cloud SDK厂家:安徽科大讯飞信息科技股份有限公司 使用场景:聊天发送位置、朋友圈说吧发帖添加地理位置 使用目的:获取用户地理位置信息 http://www.aishangcx.com/m/view.php?aid=118
11.GitHubtype 消息类型(与msg[0]重复) 0文本 1图片 2语音 uid 消息发送者 uuid 忽略 uuid_str 消息id timestamp 时间注意单位是秒,操作前请自己乘以1000转成TRIBE.MSG_RECEIVED: 只接收成功的群聊消息(群聊天消息,群系统消息) KICK_OFF: 收到被踢的通知 注意:无法监听到自己当前发送的消息 DEMO var sdk = newhttps://github.com/cty901/WSDK
12.多人视频聊天组件(SDK,控件,二次开发插件)一款简单好用的桌面视频聊天组件。 可用于视频聊天室,游戏软件等增加视频语音聊天功能。 视频聊天窗口任意放置在桌面上的任何位置,想要几个是就加几个视频。 没有复杂的界面,最单纯的视频窗口,给你最自由的选择,最清晰的感受。 用户登录后,进入房间即可聊天。 Demo使用具体步骤: 1、下载NN多人视频聊天组件后https://www.nnv1.com/VideoChat.htm
13.websocket实现语音聊天语音同步合成WebSocket接口华为云帮助中心为你分享云计算行业信息,包含产品介绍、用户指南、开发指南、最佳实践和常见问题等文档,方便快速查找定位问题与能力成长,并提供相关资料和解决方案。本页面关键词:websocket实现语音聊天。https://support.huaweicloud.com/topic/1050948-1-W
14.国际版语音房聊天APP,视频语音平台开发搭建经验及后台项目简要说明海外视频语音社交 APP 开发 Hawa、MICO 、Video Show、Uplive、Cloubhouse 项目运行环境: ●服务器系统环境:CentOS 7x 版本,不限制服务器所在地区 ●视频直播 SDK 使用腾讯云直播 SDK,购买腾讯云流量可免费使用 SDK 系统 支持接入其他第三方 CDN 具体接入方法根据不同 CDN 的接入文档接入,腾讯云 SDK 可以https://xie.infoq.cn/article/2caf1e8fd071758cf2acac5a7
15.视频聊天SDK—AmazonChimeSDK定价—AWSAmazon Chime SDK 提供按使用量付费定价模式,没有预付费用。使用 WebRTC 媒体的开发人员可以选择以单一速率实施部分或全部可用的媒体模式(音频、视频和屏幕共享)。 开发人员可以在标准或高清晰度 WebRTC 媒体会话之间进行选择。标准会话最多支持 250 名交互式参与者,视频分辨率高达 720p(1280x720),屏幕共享高达 1080http://aws.amazon.com/cn/chime/chime-sdk/pricing/
16.语音聊天腾讯云开发者社区如上图,是常见的仿微信的聊天程序,实现的效果如上图所示,由于项目太大,本文只讲录音部分。setRecorderListener(FinishRecorderListener listener) { mListener = listener; } } 最后录制完成后,点击列表的语音会完成播放https://cloud.tencent.cn/developer/information/%E8%AF%AD%E9%9F%B3%E8%81%8A%E5%A4%A9-article
17.短语音识别sdkSDK短语音识别SDK是一种软件开发工具包,它允许开发者在他们的应用程序中集成语音识别功能。这种SDK通常包括预训练的语音识别模型、API接口和文档,以便开发者可以轻松地将语音识别技术应用到他们的项目中。 短语音识别SDK使用指南 (图片来源网络,侵删) 本指南将详细介绍如何使用短语音识别SDK进行音频转文本的操作,我们将通过https://www.kdun.com/ask/707156.html
18.语音聊天一对一语聊直播APP开发软件app定制开发立即获得有关语音聊天软件APP开发流程和代码歧义的疑问的答案。 ChatGPT 支持的实时帮助可立即解答您有关 SDK 的疑问,以便您可以毫无麻烦地无缝构建音频聊天软件APP。 9.自动缩略图生成器 用户之间共享的图像、文档、多媒体文件或 URL 需要缩略图。此功能会自动为对话中共享的每个元素生成缩略图。这通过提供视觉上下文https://www.yanding8.com/post/2186.html