2024 年,在 Brian Tong 的 YouTube 视频中,Vision Pro 设备上的 FaceTime 通话首次亮相,其逼真的虚拟化身效果令人赞叹不已。那么,苹果是如何实现如此精准的面部表情捕捉的呢?一项新公布的专利为我们揭开了其中的秘密。
本月早些时候,苹果提交的一项国际专利申请正式公布,该专利聚焦于电子设备用户面部及手部姿态配置的确定方法、系统和设备。具体而言,它涉及识别头戴式设备(HMD)用户脸颊、下巴、嘴唇、舌头、手部等部位在三维空间中的精确位置。

专利中详细公开了多种用于区分用户面部变形、手部姿态配置以及用户头部、面部和/或手部表面或组织几何形状上各点三维位置的设备、系统和方法。这些技术不仅有助于在 XR 环境中提供更加丰富的虚拟内容,还能通过 XR 头戴设备利用一个或多个天线获取的射频信号,精准区分用户的面部变形、手部姿态配置及相关表情,并据此预测用户的面部配置,如脸颊、下巴、嘴唇、舌头等部位的三维关键点,以及手部姿态配置。
该专利主要针对 Vision Pro 设备进行设计,其头戴式设备形式多样,包括头戴式显示器、抬头显示眼镜、具有透明镜片的 AR 眼镜以及矫正视力眼镜等。设备的一个或多个天线可巧妙地集成在头戴设备的底部等部位,通过与用户头部、面部或手部的特征进行介电式和非接触式交互,将用户面部或手部姿态的变化实时反映在天线的自谐振频率和/或性能上。

XR 头戴设备通过测量这些自谐振频率和/或性能的值,所获得的数据不仅可用于配置个性化形象,还能深入解读用户面部/手部的细微动作,甚至用于唯一标识用户。个性化形象涵盖用户的照片写实形象、抽象形象(如动画形象)以及各种类型的虚拟化身等。
为减少用户手部、面部覆盖物(如胡须、口罩等)及复杂环境所带来的干扰,专利中的一些实施方案采用了一种具有方向性辐射模式的天线设计,该模式基于射频波强度的角依赖性,有效降低了外界干扰。部分实施方案还采用了缝隙天线,这种天线在某些场景下具有低剖面和结构简单的优势,进一步提升了信号的稳定性。还有些实施方案采用了可折叠的缝隙天线,为放置次级天线提供了灵活的位置选择。例如,在 XR 头戴设备中心放置垂直极化的 U 形缝隙天线,在侧面放置水平极化的天线,这种设计使得天线能够更全面地捕捉用户的面部和手部动作。

在专利图 3A 示例中,可以清晰地看到头戴设备如何利用天线获取的射频信号来预测用户的面部配置。图 3A 展示了头戴设备的底部视图,其底部装有交叉极化的天线系统,这些天线通过低剖面的3D打印底座略微朝向用户面部进行安装。这种正交定位的交叉极化天线系统有助于降低环境噪声,提高信号分辨率,从而更好地捕捉嘴巴和手部的多种运动细节,如嘴巴闭合、露齿微笑,或手指和关节的运动等。
虽然面部和/或手部姿态表情的捕捉不一定需要高帧率,但高分辨率扫描对于区分不同的嘴部或手部姿态至关重要。说话时的嘴部运动虽然迅速,但只需较低分辨率即可捕捉到嘴部运动的整体轮廓。对此,专利中提出了一种在特定频率范围内采样 31 个点的方法,从而在 8.5 FPS 下获得 124 个值,既保证了捕捉的精度,又提高了处理效率。