今日嘉宾:语音识别
“Hey siri!今天星期几?”
“今天星期一”
想打电话腾不出手,想查东西却不想打字,聊天解闷、预定餐厅、查询天气等等,只需一个呼唤,你的个人智能助理都可以帮忙搞定!
如此便捷,你知道它们的工作原理是什么吗?
这些智能助理是语音识别和语义识别的结合。简单说来就是听见、听懂,然后做出回应。语音识别和语义识别都算是人工智能的范畴,但属不同的领域。语音识别是把语音转化为文字,语义识别是将语音转化为文字后尝试理解这些文字。
以siri为例,它实质上是一个口语对话系统,主要包含以下图示中的几个部分:
每一台苹果手机的ios系统都会有一个持续工作的小型语音识别装置,从你的手机启用siri开始,它就会一直在后台待命。当你喊出“hey siri”这个词语,它便会第一时间接收语音,并对语音命令进行识别,即刻转换为一个声音数据包,并将其转化为文字。之后用识别器对文本进行理解,这一步就是语义识别。生成答案后,再将答案合成为语音,这是语音识别的逆过程。
小E、小爱同学、天猫精灵等也是使用同样的原理。
有的用户会发现,有些时候siri的回答非常有趣、口语化,让人觉得它好像能够听懂人们在说什么,一点也不像是提前设定好的答案。那是因为siri使用了大量的数据做基础服务支持,对语义进行分析的同时,对用户意图进行识别。这就是为什么用户会产生“siri是可以独立思考”的错觉。