跟机器语音交互的时候到底发生了什么?
发布时间:2021年11月10日
什么是语音交互技术?
智能语音交互是基于语音输入的新一代交互模式,通过说话就可以得到反馈结果。可以理解为人类与机器间通过自然语言完成信息传递的技术。
语音交互的完整流程
一、唤醒
通常,根据距离远近语音交互场景可分为两种:
- 近场语音场景:通常通过按键激活,例如智能手机等便携设备。
- 远场语音场景:通常通过唤醒词激活,例如智能音箱等固定设备。
远场语音场景下,在产品策略上通常会采取两种方案,以提高唤醒的准确率:
1.将唤醒词的音节长度增加到4音节。这是因为音节越长,唤醒的准确率就会越高。比如:“小兴小兴”的唤醒准确率远高于“小兴”。
2.白天只对唤醒词做本地校验,夜间则再增加云端二次校验。这是唤醒速度和准确率间的平衡策略。白天用户更看重响应速度,发生偶尔的误唤醒用户能理解或接受,这时候仅由本地的唤醒检测模块进行快速检测,保证 700 ms 内快速响应用户。
晚上睡觉时用户对误唤醒是零容忍的,这时候就要偏重唤醒的准确度,将本地检测过的语音上传到云端进行二次确认,再决定本地是否响应。
二、语音识别ASR
三、语义理解NLU
领域:“闹钟”
意图:“设置闹钟”
词槽:“明早8点”
四、对话管理DM
1.先决策。机器在对话过程中不断根据当前的状态决策下一步应该采取的最优动作。
2.再执行。如提供结果,询问特定限制条件,澄清或确认需求,调用各种 Skill 技能(AI 时代的 APP),从而最有效的辅助用户完成信息或服务的获取。
五、语言生成NLG
六、语音生成TTS
将文字内容转换成语音输出,让机器跟我们对话。这涉及到两个过程:
1.将从文字内容转换成语音输出,让机器说话。
2.合成语音:狭义上专指根据音素序列(以及标注好的起止时间、频率变化等信息)生成语音,广义上它也可以包括文本处理的步骤。
家庭语音交互应用场景
家庭中语音交互的主要应用场景包括:语音查询资讯、语音控制播放、语音免提拨号、语音控制家电等。
缩略语:
ASR:Automatic Speech Recognition,自动语音识别技术
NLU:Natural Language Understanding,自然语言理解
DM:Dialog Management,对话管理
NLG:Natural Language Generation,自然语言生成
TTS:Text To Speech,从文本到语音
NLP:Natural Language Processing,自然语言处理
IPTV:Internet Protocol Television,网际协议电视
OTT:Over The Top,通过互联网向用户提供各种应用服务
IMS:Interactive Multimedia Service,交互式多媒体服务
IOT:Internet of Things,物联网
来源:中兴文档