此前,NVIDIA公布了一项与斯坦福大学合作研发的全息VR显示方案,该方案的特点采用了纯相位SLM元件和全息光波导技术,可将光学模组做到仅2.5毫米厚,并进一步缩短光路,可打造出支持3D显示的超薄VR头显。该方案的研发者之一、斯坦福大学博士后研究学者Yifan Peng,和另一组科研人员又发表了新的VR研究,而这一次的研究重点是解决VR头显的动态变焦问题。
VST透视
我们知道,在使用HoloLens 2 AR头显时你很难用手与AR实现自然互动,这是因为它将AR固定在2米外的焦点平面上,如果按照物理规律,使用者的手臂本来应该碰不到AR,但实际上AR几乎永远叠加在物理场景之上,总是看起来可以比你的手离你更近。
这就容易产生一种视觉焦点不匹配的问题,AR并不能体现距离和遮挡之间的物理关系,所以看起来不够自然,反而有点失真。而人眼看自然环境时,聚焦的位置一直是随着眼球运动而变化的。实际上,动态变焦问题一直困扰着AR,由于光学方案、体积等局限,目前市面上还没有一款AR头显能够在无限的距离上动态变焦。相比之下,基于视频透视的AR/VR头显似乎更有可能解决这一问题,比如可以通过液晶透镜来实现变焦,或是通过算法来模拟变焦效果。
Meta将发布的Project Cambria VR头显将支持高质量的RGB视频透视功能,意味着未来视频透视AR也将是Meta探索的一大方向。那么要提升视频透视AR的视觉效果,除了高清、RGB显示外,也难免要解决动态变焦的问题。Meta很可能会为Cambria配备液晶透镜来实现变焦。
斯坦福新研究方案
在本项研究中,科研人员表示:相比于光学透视,视频透视AR的优势在于视场角更大、支持物理遮挡、更优秀的色彩和对比度表现等等。为了进一步提升视频透视AR的效果,便研发了一套变焦方案,可实现高质量、连续的变焦。
据悉,该方案利用“焦点提示”来模拟变焦效果,从视频演示来看,其质量相当出色,AR图像可以从远景来到近景,并停留在你手上,视觉效果足够自然。
硬件方面,该VR头显原型配备了两组屏幕、两组可电力调节的液晶透镜(供应商为Optitune优普鑫),透镜分别用于摄像头调焦、显示图像调焦。而屏幕则包含4块2.9英寸LCD面板,单块分辨率为1440x1440。眼球追踪模组则采用200Hz刷新率方案,供应商为Pupil Labs。双层LCD的变焦设计好处是对眼球追踪误差容忍度更高,效果比单层变焦屏幕更好。
此外,还配备了6DoF定位器、手势追踪模块、摄像头、可变焦透镜、眼球追踪模块,值得注意的是该VR头显采用了两套可变焦透镜,分别位于显示屏内侧和外侧。其透视模组包含了现成摄像头、定焦镜头和聚焦可调透镜。可变焦透镜可将LCD图像显示在使用者的辐辏距离,以实现焦点匹配。
为了弥补AR图像在运动过程中的焦距变化,该方案还能根据此前捕捉到的图像,合成焦距堆栈。将AR图像与运动的物体叠加时,可能会产生鬼影等视觉瑕疵,在移动物体的边缘鬼影更加明显。为了改善这一问题,科研人员调整了每帧像素,以确保移动物体的像素在前一帧和后一帧图像中是连贯对齐的。
弥补眼球追踪误差
基于该VR原型,还设计了一种叫“注视跟随多层显示”方案,优势是结合了变焦和分层显示器的优势,在眼球追踪精度和准确性有限的情况下,依然能为大规模AR场景渲染高质量变焦。除了变焦外,还支持注视点渲染。
此外,可实现高分辨率和紧凑外观设计,而且可根据眼球追踪捕捉到的视觉焦距,来调整显示层的焦距。
与传统可变焦显示屏相比,注视跟随多层显示方案可允许更多眼球追踪误差,聚焦效果更准确。为了加速多层显示方案的计算效率,科研人员还构建了一个MR焦距堆栈架构,可驱动多层显示方案实时捕捉和渲染,以捕捉、渲染和显示具有焦点信号AR,并在显示面板之间任何距离对焦。这是一个完整的端对端捕捉、渲染和显示流程,硬件方面可采用市售的元件和计算技术。
科研人员表示:即使现有的眼球追踪效果有限,也能实现足够好的变焦效果。为了弥补眼球追踪系统的误差,还引入了基于眼球追踪的多层VST显示模组,可捕捉焦点堆栈,来调节多层显示屏之间的距离。焦点堆栈可创建高质量焦点线索,同时其数据的密集度远低于完整的光场,且简化了VST视频捕捉,可使用时间多路复用,因此计算量足够小,在单个GPU上就能运行。
利用液晶透镜捕捉到的模糊来补偿焦点堆栈中的图像运动,好处是可避免伪影,响应速度更快。多焦距显示屏的位置可自适应调整,好处是可支持更多焦距,对眼球追踪误差容忍度高。
在测试过程中,科研人员为单眼各配备一个GPU,可实现1024x602分辨率,30毫秒更新率。每个堆栈包含7层图像。可补偿1°眼球追踪误差。显示面板数量可拓展,2、3个足够用。未来,可以更换响应速度更快的显示屏、具有HDR和高分辨率的相机,来提升VST透视效果。参考:Yifan Peng