日前亚马逊方面发布新一代语音模型Nova Sonic,并号称其能够捕捉语调、语调和节奏,从而更深入地理解人类的对话。
据了解,Nova Sonic能够原生处理语音输入、并生成自然流畅的语音输出。对此亚马逊方面表示,这种统一使得Nova Sonic能够根据声学环境(例如音调、风格)和输入调整生成的语音响应,从而产生更自然的对话。此外其还指出,在响应速度、语音识别准确率和对话质量等核心性能指标上,Nova Sonic已达到与OpenAI、谷歌等竞争对手旗下旗舰语音模型媲美的水平。

值得一提的是,亚马逊方面透露,与竞品相比,Nova Sonic在将用户请求路由到不同API方面表现出色。这一能力也使得Nova Sonic能够知晓何时需要从互联网获取实时信息、解析专有数据源,或者在外部应用程序中采取行动,并使用合适的工具来完成任务。
而且在双向对话中,Nova Sonic会考虑到说话者的停顿和打断等情况,并等待“合适的时机”发言。此外Nova Sonic还能够为用户的语音生成文本记录,使开发者能够利用这些文本调用特定的工具和API,从而构建更为强大的语音AI代理。
据亚马逊AGI部门首席科学家罗希特·普拉萨德透露,Nova Sonic的部分技术已经应用于由生成式AI驱动的全新Alexa+中。
据了解,目前Nova Sonic已通过AWS旗下的Amazon Bedrock开发平台开放,并采用了创新的双向流式API接口。而在价格方面,其售价相比OpenAI的GPT-4o便宜约80%。对此亚马逊方面强调,该模型在成本效益方面具有显著优势。