前文介绍了Sesame开发的语音助手,该助手能够实时理解并

一种新型人工智能正吸引着数字世界的目光。它就是Sesame开发的语音助手。其显著优势在于能够实时理解并适应语境,提供自然流畅且富有表现力的对话。
Sesame是一家科技公司。其领导团队成员包括Oculus VR联合创始人兼前首席执行官Brendan Iribe、Ubiquity6 前首席技术官兼联合创始人Ankit Kumar,以及Meta Reality Labs前研究工程总监Ryan Brown。
Sesame秉持这样一种理念,即对话式人工智能的发展需要各方通力合作。因此,他们致力于以开源形式发布研究成果,以推动实验与开发。他们的模型将遵循 Apache 2.0 许可证。
正如他们在其网站发布的声明中所解释的那样,Sesame的目标是“实现‘语音临场感’,即那种让口头交流感觉真实、被理解和受欣赏的神奇特质”。为此,他们正在开发一种对话语音模型(CSM),该模型不仅能够处理请求,还能真正参与对话。
Sesame认为,实现这一目标的四个关键特性分别是:情商(理解用户情绪)、对话动态(停顿、节奏和强调)、情境意识(根据情况调整语气)以及一致的个性(保持可识别的风格)。
此外,该公司承认他们尚未创建出能够满足这些要求的模型。然而,他们声称自己正朝着实现这一目标的正确方向前进。“我们在多个领域不断取得进展,包括个性、记忆、表现力和恰当性。本次演示是我们对话语音生成工作的一部分。这里展示的‘伙伴’经过优化,变得更加友好且富有表现力,以展现我们方法的潜力。”
Sesame提到的 “伙伴” 指的是为其语音助手开发的两种声音:玛雅(Maya)和迈尔斯(Miles)。得益于超过100万小时的音频(主要为英语),它们都能够回答问题,以自然的语调流畅对话,并展现出丰富的表现力。
目前,这种对话语音模型仅支持英语。不过,由于训练数据集存在污染,它能够展现出一定的多语言能力。Sesame计划在未来几个月内将该助手的兼容性扩展到20多种语言。
Sesame的另一项令人惊喜的创新是,该公司正在研发集成人工智能的眼镜,以补充其语音助手的功能。据这家科技公司称,这款眼镜的设计理念是 “可全天佩戴,为您提供高品质音频,并便于您与‘伙伴’一同探索世界”。