智能语音交互是基于语音输入的新一代交互方式,通过说话可以获得反馈结果可以理解为人类和机器通过自然语言进行信息传递的技术
语音交互的完整流程如下图所示。
一般来说,根据距离远近,语音交互场景可以分为两种:
近场语音场景:通常通过按键激活,比如智能手机等便携设备。
远场语音场景:通常由唤醒词激活,如智能音箱等固定设备。
在远场语音场景下,产品策略上通常采用两种方案来提高唤醒的准确性:
将唤醒词的音节长度增加到4个音节这是因为音节越长,唤醒的准确率越高比如小星小星的唤醒准确率就比小星高很多
白天只在本地检查唤醒词,晚上增加云端第二次检查这是唤醒速度和准确性之间的平衡策略
白天用户更注重响应速度,偶尔的误唤醒也能被用户理解或接受。此时,只有本地唤醒检测模块执行快速检测,以确保在700 ms内对用户做出快速响应
晚上睡觉时,用户对假唤醒零容忍这时候就要重点考虑唤醒的准确性,把本地检测到的语音上传到云端进行二次确认,再决定本地是否响应
语音识别阶段的主要功能是采集和使用语音,并将语音转换成文字。这个阶段主要做两件事:
1.测向降噪。
测向的作用是判断用户的方向,用户方向的麦克风采集语音数据,保证语音数据最清晰降噪是为了消除环境声音,提高识别准确率
2.识别语音并将其转换为文字。
为了提高特定内容的识别率,一般会提供热词服务,配置的热词内容实时生效,并且会增强ASR结果的识别权重,从而在一定程度上提高ASR的识别准确率。
语义理解就是试图理解人类的语言,也就是把语音识别的结果变成机器可以理解的结构化语言。
NLU的工作逻辑是将用户指令分成三个层次的领域意图槽。
例如,指令在明天早上8点设置闹钟由NLU处理,并且用户的指令被拆分为以下三个级别:
域名:闹钟
意图:设置闹钟
单词:明天早上8点
先做个决定在机器对话过程中,根据当前状态决定下一步要采取的最佳行动
然后执行如提供结果,要求具体限制,明确或确认需求,调用各种技能技巧,从而最有效地协助用户获取信息或服务
NLG的主要目的是减少人类和机器之间的沟通差距,将非语言数据转换为人类可以理解的语言格式简单的NLG可以结合数据,而先进的NLG可以理解数据的意图,考虑上下文并呈现易于阅读的内容
目前,在一些有明显规则的领域,如体育新闻,可以使用NLG自动发布新闻。可能你现在看的一篇文章是机器生成的吧~
把文本内容转换成语音输出,让机器跟我们对话。这涉及两个过程:
把文本内容转换成语音输出,让机器说话。
语音合成:狭义上是指基于音素序列的语音生成,广义上也可以包括文本处理的步骤。
家庭语音交互的主要应用场景包括:语音查询信息,语音控制播放,语音免提拨号,语音控制家电等。
缩写:
自动语音识别,自动语音识别技术
NLU:自然语言理解,自然语言理解
对话管理,对话管理
NLG:自然语言生成,自然语言生成
TTS:文本到语音,从文本到语音
自然语言处理,自然语言处理
Iptv:互联网协议电视。
OTT:Over The Top,通过互联网为用户提供各种应用服务。
交互式多媒体服务,交互式多媒体服务
IOT:物联网,物联网
。免责声明:该文章系本站转载,旨在为读者提供更多信息资讯。所涉内容不构成投资、消费建议,仅供读者参考。