Apple Vision Pro攻克混合现实的难点了吗?

历经数十载岁月,虚拟现实(VR)和增强现实(AR)真切沉浸感的承诺,犹如握在手心,却又因每一次新产品的推出,变得似在咫尺,又似天涯。

然而,Apple Vision Pro的推出,令人振奋。它没有把自己明确定义成VR或是AR,而是标榜着“空间计算设备”,让我们看到了其核心技术为“真实体验”拉近的距离。那Apple Vision Pro如何真正实现沉浸式体验?又能否让我们所有的感觉都坚信它所呈现的体验是真实的呢?

要想构建让人信服的VR和AR体验,得依靠工程师们能否精准且稳定地,再现那些共同塑造了我们对现实的感知的要素。这便需要从理解人类的生理学和神经科学开始。我们必须明白那些在现实世界中对感知3D结构起到关键作用的多感官信号,然后使用头戴式设备的技术模拟它们。

Apple Vision Pro攻克混合现实的难点了吗?

– apple –

01 实现基于技术的现实

一般而言,VR设备会遮蔽用户的视野,展现出一个模拟的环境,在那里借由感官刺激提供临场感,并为与虚拟物体的互动提供可能。而AR设备则将虚拟物体叠加在真实的物理环境上,感官线索为物理元素和增强元素之间的协调提供了依据。

那些将真实世界的元素融入虚拟环境的3D AR系统,也被誉为混合现实(MR)设备。Apple Vision Pro恰恰属于这个行列。

尽管每种设置都有其独特的需求,但推动这些系统向前发展的共同点,包括实时3D感知和追踪、强大且高能效的计算处理、高保真的图形渲染和显示、沉浸式音频、机器学习和AI算法、直观的人机交互界面以及创新的应用。

Apple Vision Pro攻克混合现实的难点了吗?

– Apple Vision Pro –

02 沉浸式的视觉体验

我们借由创新的图形与显示技术,尽可能地以更高的保真度描绘数字物体,通过前所未有的清晰度与光照效果,将更多的像素装入更小的空间。

然而,尚有很多工作等待我们去完成。这不仅仅是要呈现出逼真的画面,更是要在小型的近眼显示器上实现宽广的视场(FOV),并提供必要的视觉线索。

如今的高分辨率智能手机显示屏每英寸可达500+像素密度(PPI)。然而,在评价沉浸式头戴显示器的视觉效果时,仅仅衡量PPI还远远不够。显示器所覆盖视觉场景的每一度视场角的像素数(PPD)显然更为重要。

在视觉的中心点,人眼的角度分辨率大约为1/60度。每只眼睛的水平FOV大约为160°,垂直FOV大约为175°。当两只眼睛协同工作时,可通过约120°宽和约135°高的FOV进行立体深度的感知。

这些表明,我们需要为每只眼睛提供约10亿像素(即100百万像素,100MP),和大约60 MP的立体视觉,从而实现60 PPD的视觉敏锐度。然而与此相比,当前最先进的主流VR头戴显示器仅有大约3.5 MP(Meta Quest 2,单眼1832×1920,约2k)。

Apple Vision Pro

Apple Vision Pro 配备超高分辨率显示系统,在两个显示屏上提供 2300 万像素。以及全新的 R1 芯片,可实现几乎无延迟的实时视图世界。

Apple Vision Pro配备有基于Apple硅芯片的突破性超高分辨率显示系统,使用Micro OLED技术将2300万像素集成到两个显示屏中,每个显示屏的大小都与邮票一样,能实现单眼分辨率4K的效果。此外它还具有120°的视场(Meta Quest Pro为 106ºH×96ºV)。在现行的制造技术上,Vision Pro已有很大进步,但离人眼还有很大差距。

因此,相关设计人员都在根据对人类视觉系统工作原理的理解,对高分辨率渲染视觉场景重点部分做出权衡。Apple Vision Pro也不例外。

Apple Vision Pro攻克混合现实的难点了吗?

– apple –

03 眼动追踪和中央渲染

人的视觉敏锐度仅限于非常狭窄的领域——大约在眼的视轴周围±1°,主要集中在中央凹。这意味着人的视力在中心最为清晰,然而到了周边便变得模糊。借助实时传感器追踪用户的注视点,我们能在中心注视区域渲染出更多的多边形——集中计算能力于此处——并以指数级别降低其他区域的图形保真度(即多边形密度)。

这种注视点渲染,可大幅减少图形工作量及相关的能耗。全球各地的研究者正在对此进行研究,设备设计人员正在探索多显示器配置,其中高分辨率显示覆盖中心视觉,而像素计数较低的显示覆盖周边视觉,即注视点渲染技术。

代表性的Apple Vision Pro,则在内部配置了4个眼动追踪摄像头,通过将不可见光图案投射到用户的眼睛上,用来追踪用户的眼球运动,以实现反应灵敏、直观的输入。同时,它引入了实时执行引擎和注视点渲染技术,可最大限度地提高用户眼睛聚焦的图像质量。但它并不支持屈光度调节,得通过附着磁性屈光镜片,以便近视人群使用,保证视觉保真度和眼动追踪准确性。

不过,未来的显示架构,一定是能够在注视方向及其周围动态,都实时投影出更高分辨率的视觉内容。在这点上,还有更大的竞争空间。

Apple Vision Pro攻克混合现实的难点了吗?

人眼的中央凹上布满高密度的锥状光感受器,由此产生高度敏锐的中心视觉。当视线转向边缘,光感受器的密度显著下降,导致视觉敏锐度的减弱。

04 调节和会聚的不匹配

另一个关键问题是保证眼动线索的一致性,以修正眼睛的调节与会聚之间的不匹配。人类的两只眼睛会在物体上聚焦,立体地观察世界。每只眼睛的晶状体通过调节变形,将来自不同深度的光聚焦。两只眼睛会聚的距离与每只眼睛调节的距离相匹配。

然而,在现有的商用VR和AR头戴设备中,会聚与调节的距离存在不匹配。现实世界中的光,通过不同距离的各种光源的反射和折射进行修改。然而在头戴式设备中,所有的光均来自同一距离的单一源头。当眼睛会聚以观察虚拟物体时,晶状体的形状必须不断调整,以便聚焦从显示器发出的固定距离的光,从而导致距离的不匹配,这通常会引起眼睛的疲劳或迷失方向。

现在研究人员正在探索各种途径,如动态可移动的光学装置与焦距可调的液晶镜片,它们都可以通过调节电压而改变焦距。在这点上,Vision Pro仅显示配备有瞳孔间距(IPD)调节功能,能自动或电动调整,匹配佩戴者的瞳孔间距,但解决方法尚未透露,具体效果还待验证。

Apple Vision Pro攻克混合现实的难点了吗?

针对3D显示的会聚-调节不匹配

05 3D立体音频

要达成真正的沉浸式体验,AR/VR的音频体验必须与视觉体验相互配合和协调,使得音源的位置与用户所见的场景完美对齐。在现实世界中,大多数人即使闭上眼睛,也能大致判断出声音的来源。这基于大脑对于声音的“到达时间”和声音强度的感知和解读。这在现实世界中是自动完成的,但在VR头戴设备中,必须通过编程和处理实现三维立体音频。

然而,挑战在于,每个人对声音信号的体验都不同,信号频谱会因人头部和耳朵的大小、形状和质量等因素而变化。这就是头相关变换函数(head-related transfer function)——这是现今技术所努力接近的东西。目前正在进行的研究是将此函数个性化,这将使头戴式设备的用户通过正确的空间线索感知从虚拟对象发出的声音。

Apple Vision Pro称,其配备有史以来最先进的空间音频系统,能感受到来自周围环境的声音,并将声音与空间相匹配,营造出沉浸式的声音体验。其中每个“音频盒”内的两个独立放大的驱动器,可以根据用户自己的头部和耳朵几何形状进行调整。该项作为Vision Pro的卖点,是否真能创造不同空间的音频源错觉,值得期待。

Apple Vision Pro

Apple Vision Pro 配备有史以来最先进的空间音频系统,营造出声音来自用户周围环境的感觉。

06 低延迟的由内向外追踪体验

实时追踪用户头部运动在VR/AR中是必需的。在任何时刻,系统都必须能够确定头戴设备在三维空间中相对于其他物体的位置,同时确保高精度和低延迟,根据用户头部的位置和方向呈现相应的视觉和听觉信息,并在用户移动时迅速更新。

一直以来,VR头戴设备一直通过“由外向内”的追踪方式追踪头部运动,这种方式利用的是用户在周围环境中放置的外部传感器。然而,现今,“由内向外”的追踪,基于计算机视觉和精细调校的运动传感器的组合,提供了同步定位和映射技术以及视觉惯性测距,从而实现头戴式设备内部进行运动追踪。

然而,一个持续的挑战是实现低运动到光子延迟——即从用户的动作启动,到显示器中相应图像帧的最后一个像素发出光子的时间延迟。

换言之,这个过程涵盖了传感器数据的获取和处理、接口的建立、图形的计算、图像的渲染,以及显示的更新等步骤所需的全部时间。

在真实世界中,我们根据视觉场的变化和我们的前庭感觉系统检测到的运动信息来追踪我们的头部动作。在VR头戴设备中,过长的延迟可能导致视觉-前庭感觉的不匹配,进而让人失去方向感和引发眩晕。目前的系统通常可以实现20到40毫秒的运动到光子延迟,但为了获得无缝的感知体验,这个数值需要降至10毫秒以下。

Apple Vision Pro攻克混合现实的难点了吗?

“由内向外”的追踪技术使得现代头戴设备能够借助内置传感器实时精确地追踪用户的动作。

在这点上,Apple Vision Pro配置有外部摄像头和传感器,采用的仍然是“由外向内”的追踪方式,利用先进的传感器和深度感应技术,来实现准确的空间映射和实时对象跟踪。不过它并不需要使用物理控制器,就可实现基于手部和手势的导航。

此外,Apple Vision Pro采用独特双芯片设计的Apple 芯片,其中R1芯片会处理来自12个摄像头、5 个传感器和6个麦克风的输入,以确保内容实时呈现在用户眼前。官方称,R1芯片能在12毫秒内将新图像流式传输到显示器,比眨眼快8倍,几乎实现了无延迟的实时视图世界。虽然离10毫秒还有一些距离,但这已经是极大的突破。

Apple Vision Pro

visionOS 建立在 macOS、iOS 和 iPadOS 的基础上,是世界上第一个将数字内容与物理世界融合在一起的空间操作系统。

07 人类输入与交互

沉浸式体验还需要用户能够真实地与虚拟对象进行交互。他们应能伸手抓取一个对象,而这个对象必须能够根据物理法则实时作出反应。

现行最先进的头戴设备让用户可以通过基本的手势来选取对象。这点,Apple Vision Pro已然实现,其具体手势与环境的交互如何还待考证。但随着计算机视觉技术在人工智能快速进展的助推下不断改善,相信,其将能包含更丰富的手势控制功能。

此外,虽然Apple Vision Pro展示了其适用于工作和家庭应用程序的无限画布界面,但其仍然归结于键盘和控板的支持。与未来的多模式交互——即通过眼动追踪技术,将让用户能够通过将视线集中在虚拟对象上来选择对象,然后通过手势来激活或操作它们——还相距甚远。

相信不久的将来,随着人工智能技术的不断发展和本地低延迟处理成为可能,头戴设备将具备这些识别功能。

Apple Vision Pro攻克混合现实的难点了吗?

计算机视觉和人工智能技术的进步使得用户可以通过手势、眼神和语音指令进行自然交互。

08 展望未来

在Apple Vision Pro发布的今日,我们已然有幸亲身体验到这些富有前瞻性的尝试,但全面的沉浸式体验依旧朦胧在远方。演示中描述的体验是渲染的,而不是真实的;此外,售价2.5万;续航2小时以及“明年初”上市种种信息,都意味着顶尖如Apple,在VR/AR的探索中,仍然处于非常早期的阶段。

这一目标,虽然在短时间内难以触及,然而在相关技术领域投入的十数亿美金下,其潜力仍近乎无穷。比如,麦肯锡公司曾预言,元宇宙或许在2030年将会孕育出4至5万亿美元的市场规模。

通过破解技术难题,我们期待通过技术的力量重塑生活体验,最终消融现实世界与我们在虚拟世界中的体验的鸿沟,而Apple Vision Pro无疑更进了一步。

本文地址:https://www.cknow.cn/archives/25323

以上内容源自互联网,由百科助手整理汇总,其目的在于收集传播生活技巧,行业技能,本网站不对其真实性、可靠性承担任何法律责任。特此声明!

如发现本站文章存在版权问题,烦请提供版权疑问、侵权链接、联系方式等信息发邮件至candieraddenipc92@gmail.com,我们将及时沟通与处理。