探秘Sesame新型AI语音助手，兼论智能眼镜创新布局

🤖 由文心大模型生成的文章摘要

前文介绍了Sesame开发的语音助手，该助手能够实时理解并

一种新型人工智能正吸引着数字世界的目光。它就是Sesame开发的语音助手。其显著优势在于能够实时理解并适应语境，提供自然流畅且富有表现力的对话。

Sesame是一家科技公司。其领导团队成员包括Oculus VR联合创始人兼前首席执行官Brendan Iribe、Ubiquity6 前首席技术官兼联合创始人Ankit Kumar，以及Meta Reality Labs前研究工程总监Ryan Brown。

Sesame秉持这样一种理念，即对话式人工智能的发展需要各方通力合作。因此，他们致力于以开源形式发布研究成果，以推动实验与开发。他们的模型将遵循 Apache 2.0 许可证。

正如他们在其网站发布的声明中所解释的那样，Sesame的目标是“实现‘语音临场感’，即那种让口头交流感觉真实、被理解和受欣赏的神奇特质”。为此，他们正在开发一种对话语音模型（CSM），该模型不仅能够处理请求，还能真正参与对话。

Sesame认为，实现这一目标的四个关键特性分别是：情商（理解用户情绪）、对话动态（停顿、节奏和强调）、情境意识（根据情况调整语气）以及一致的个性（保持可识别的风格）。

此外，该公司承认他们尚未创建出能够满足这些要求的模型。然而，他们声称自己正朝着实现这一目标的正确方向前进。“我们在多个领域不断取得进展，包括个性、记忆、表现力和恰当性。本次演示是我们对话语音生成工作的一部分。这里展示的‘伙伴’经过优化，变得更加友好且富有表现力，以展现我们方法的潜力。”

Sesame提到的 “伙伴” 指的是为其语音助手开发的两种声音：玛雅（Maya）和迈尔斯（Miles）。得益于超过100万小时的音频（主要为英语），它们都能够回答问题，以自然的语调流畅对话，并展现出丰富的表现力。

目前，这种对话语音模型仅支持英语。不过，由于训练数据集存在污染，它能够展现出一定的多语言能力。Sesame计划在未来几个月内将该助手的兼容性扩展到20多种语言。

Sesame的另一项令人惊喜的创新是，该公司正在研发集成人工智能的眼镜，以补充其语音助手的功能。据这家科技公司称，这款眼镜的设计理念是 “可全天佩戴，为您提供高品质音频，并便于您与‘伙伴’一同探索世界”。

玩酷网