Apple的 Vision Pro在行业内外的期盼下,终于在本月隆重发布。其标志着Apple转向“空间计算”。Apple认为空间计算是一个新的时代。传统显示器的屏幕不再会对人们的工作环境造成任何限制,相反,整个无限延伸的真实3D世界成为了画布。
将空间变成工作台
APPLE的“空间计算”概念中,设备用于计算识别佩戴者的身份、动作、表情、眼球、语音命令,以及其所在的3D空间中的位置。
苹果VP
众多的传感器主导着 Vision Pro 的空间计算能力,下面是 Apple 在主题演讲中强调的所有传感器:
APPLE演讲中强调的传感器
摄像头 Vision Pro 至少配置了12 个摄像头,可帮助它捕捉头显内外的细节。外部有 8 个摄像头,2颗RGB主摄像头用于彩色视频透视, 2颗外侧视角摄像头以及4颗下侧视角摄像头用于视环境感知和手势交互;而HMD内部的 4 颗红外摄像头用于眼球追踪和虹膜识别
LiDAR LiDAR全称是Light Identification Detection And Ranging,其通过发射激光光束并测量其返回时间来确定物体的位置和形状。这项技术已经被广泛应用于自动驾驶、地形测量、建筑测量和环境监测等领域。在 Vision Pro 上,LiDAR 传感器位于鼻子正上方的前部和中央,能够捕捉用户周围更加准确的深度信息,从而生成更加精确的三维模型,为用户带来更加逼真和沉浸的AR体验
LED illuminators Apple Vision Pro 中的眼动交互原理应该是瞳孔角膜反射法,即通过角膜中心和瞳孔中心的连线进行眼动追踪。在每只眼睛周围配有一圈 LED ,其投射红外光图案到用户的眼睛上。而红外摄像头会拍摄眼球,利用捕捉到的 LED 投射的光模式,完成追踪眼睛的位置和运动。
惯性传感器(IMU) 虽然苹果没有在演讲中提到这些,但很明显其有多个加速度计和陀螺仪来帮助它进行定位追踪。与其他主流HMD产品一样,Vision Pro 支持 6 Dof跟踪。加速度计捕捉人体的位移,而陀螺仪反馈佩戴者头部倾斜状态。惯性传感器和与传感器协同工作,通过苹果定制的R1芯片处理多传感器数据流,并结合SLAM算法使得设备能够感知用户的方位、朝向以及注视位置。
麦克风 Vision Pro 中内置了6个的麦克风,可执行两大类活动——语音检测和空间音频。语音命令构成了佩戴者和Vision Pro交互方式的核心部分,佩戴者可以执行搜索查询、召唤应用程序/网站以及自然地与 Siri 交谈。同时,HMD两侧集成的双驱动单元音频组件,,利用音频射线追踪技术对用户所处的空间进行声学扫描,就像摄像头需要进行视觉扫描一样,可以让 Vision Pro通过分析空间的特征和材质,使声音适配用户所处的空间,进而创造出具有环境感的空间音频,为用户提供绝佳的空间音效。
Quest 3
至于Meta还未发布的Quest 3,我们目前还只能从预告和爆料中略知一二。作为Meta用于对标APPLE Vsion Pro的头一战,区别于Meta此前的纯VR产品,Meta Quest 3 采用全新的传感器架构,在侧面采用2个”canyon”相机完成6-Dof追踪,而在前侧则是搭配深度传感器的4相机阵列,用于混合现实应用,其中采用 RGB相机支持彩色视频透视,其分辨率是 Quest 2 的十倍。
Quest 3部分传感器
全新的传感器架构为Quest3带来了诸多新的特性,如Meta泄露的视频中还展示了与空间定位相关的新功能—— Smart Guardian。
视频显示一位女士使用 Meta Quest 3 穿过客厅,同时HMD上的深度传感器开始实时扫描并绘制房间、家具和室内物体的地图。状态指示器表示扫描过程已完成。一旦女士接近物理对象(墙壁、电视、灯),映射环境就会亮起作为警告。同时虚拟的数字球体会从先前扫描过的物理对象上反弹。
使用Quest 2时,佩戴者必须在使用前手动绘制墙壁、家具,以及游戏边界,这是一个比较繁琐的过程。Quest 3的Smart Guardian 可以自动执行和改进这些步骤。这将使虚拟现实使用起来更容易、更安全,而混合现实将更易于访问且更具沉浸感。
但quest 3实物是否能实现视频中呈现的效果还未可知,期待拿到实际产品后我们对该效果的测评。
定位追踪技术
定位追踪是“空间计算”概念中至关重要的一环,通过追踪用户的位置和姿态,实现用户在虚拟环境中的自由移动和交互。
定位追踪的概念自VR技术问世以来就存在了,随着技术的进步,追踪方法也得到了发展,产生不同的产品策略,也就是我们常常听到的内向外(inside-out)和外向内(outside-in)追踪。
包括前文所述的Apple和Meta在内的头部厂商目前均采用了在设备端部署多种传感器,通过传感器数据融合的方式实现设备在场景中的定位追踪功能,即被称为inside-out(内向外)的定位模式。
inside-out模式为何成为主流趋势?在具体了解二者原理和优缺点前,我们需要了解“DoF”概念。
DoF 指“自由度”,表达物体在空间内运动的不同基本方式,几乎所有的空间运动都能被拆解成6种基本运动方式。
3DoF 一般指的是 3 个旋转运动:允许用户头部处于一个固定位置时,可以前后翻转、左右摇摆、水平转动。3DoF 设备一般用来看电影看直播,但当身体需要移动并且需要与虚拟或现实场景产生交互时,3DoF显得有点捉襟见肘了,此时更多维度的6DoF需求应运而生。
6DoF 相比 3DoF 包括额外的 3 个轴的位移运动,允许用户身体在 X、Y、Z 三个轴的移动,即能感应用户身体的前进后退,左右移动,下蹲上跳。
3DoF vs 6DoF
3DoF 设备的最大缺点是它们不太适合沉浸式内容,用户很难与虚拟环境进行无缝交互,这不仅会降低沉浸感和使用乐趣,还有可能引发晕动症。因此3DoF 设备的总体趋势正在逐步下降,越来越多的厂商支持更高交互能力的 6DoF 设备。
Outside-in
Outside-in外向内追踪是最早的VR位置追踪方法,它通过头显外部的基站或传感器和标记点的组合,实时追踪头显和手柄的位置和姿态,从而使虚拟现实应用程序能够准确呈现用户的动作和交互。
这种方法在HTC Vive等系统中得到了普及,其使用基站作为外部追踪器。诸如Oculus Rift和Playstation VR等像较为早期VR头显,也都配套了独有的定位追踪器。
图:HTC,Oculus rift,PSVR
基本原理
首先是基站/外部传感器布置,在通常会设置两个或更多的基站或外部传感器,并放置在固定的位置。这些基站会发射无线信号或光束,并实时追踪头显和手柄上的标记点。
接下来是标记点识别,头显和手柄上会放置特殊的标记点或传感器。这些标记点可以是反光球、发光二维码或其他可被基站识别的物体。基站会检测和识别这些标记点
两种标记示意图
最后是位置和姿态计算:当标记点被基站识别后,基站会计算它们相对于基站的位置和姿态。通过同时追踪多个标记点的位置,系统可以计算出头显和手柄的精确位置和姿态。
位姿计算示意图
小结
总的来说,外向内追踪具有较高的精确度和稳定性,但需要在使用前进行基站或传感器的设置和校准,该过程比较繁琐。
Inside-out
内向外追踪正如其名,与外向内相反,不再架设额外的定位装置,而是通过在头显上安装摄像头,让设备自己检测外部环境的变化,再经过SLAM算法计算出摄像头的空间位置,实现对自身或者手柄的定位追踪。
从几个大厂的主推和预告产品来看,内向外定位的趋势不可撼动。
主流大厂产品
基本原理
首先是数据捕获,VR头显和手柄内部集成了多种传感器和摄像头,例如陀螺仪、加速度计、磁力计和鱼眼/红外摄像头等。这些内部传感器和摄像头能够感知设备的运动和周围环境。
以quest pro为例,source:Limas Lin
接下来视觉特征点检测:设备的摄像头会实时捕捉用户周围的环境,并利用视觉算法检测和跟踪特征点。这些特征点可以是环境中的物体、纹理,也可以是手柄上的红外LED灯带。
最后是运动估计和姿态计算:通过分析摄像头捕捉到的特征点的运动和变化,结合IMU的惯性数据,通过融合算法估计设备的位置和姿态。
追踪用户姿态
Oculus 追踪算法架构
以上是一个典型的Inside-out追踪方案的实现流程,在实际产品应用中,会结合更多的算法实现诸如地图构建,环境遮挡等高阶功能,从而提升产品的整体沉浸感。
小结
由于不需要外部基站或传感器,Inside-Out追踪提供了更大的自由度和便携性。用户可以在各种环境中自由移动,无需担心基站布置或传感器可见性的问题。
但是,Inside-Out追踪的精确度和稳定性可能会受到摄像头视野范围、环境光照条件和复杂场景的影响。随着技术的发展,Inside-Out追踪正在不断改进,以提供更准确和可靠的追踪性能。
随着XR领域的不断发展,人们希望在不同场合随时随地拿出设备进行使用,内向外追踪由于其移动性的天然优势,深受国内外各大厂商喜爱,如Apple Vision Pro和Meta Quest Pro这样最先进的VR头显都是内向外追踪,而大厂的持续发力会让内向外追踪技进一步提升定位的准确性和稳定性,带来更加沉浸的体验。