Apple Vision pro 是一款新型 VR/AR 头显。以下是我对它是否以及如何影响元宇宙和 WebRTC 的想法。

最近几个月有不少有趣的公告和进展,让我想到了元空间、增强现实和虚拟现实这整个领域。所有这些都在上周苹果公司发布的Apple Vision Pro中达到了高潮。对我来说,我分析事物的棱镜是通信技术,主要是WebRTC。

免责声明:我不知道未来会发生什么,也不知道它对WebRTC有什么影响。这篇文章的全部目的是让我尝试将我的想法 “写在纸上”,并将其分类。

让我们开始吧 !

Apple Vision Pro

苹果发布了 Vision Pro VR/AR 头显。如果你在读这个博客,那么你已经知道了,所以没有什么好说的。

对我来说呢?这是我第一次有这种纠结的感觉,有几秒钟的时间,我可能只是想去购买一个苹果产品。

我读过的大多数文章都对它赞不绝口,尤其是那些在苹果总部玩了几分钟的人。

迄今为止,AR/VR 头显一直在采取两种方法中的一种:

  • AR头显更类似于 “眼镜”,上面有一个顶置显示器,这是增强发生的地方,额外的信息被显示在现实之上。想想谷歌眼镜。
  • VR头显,你在头顶上戴着一个全新的世界,看着一个完全取代现实世界的视频屏幕。

苹果采取了中间路线,这是一个VR头显,因为它用两个高分辨率的显示器取代了你所看到的东西——每只眼睛一个。但它作为一个AR头显,因为它使用头显上的外部摄像头将世界投射到这些显示屏上。

最终的结果是什么?昂贵,但可能比其他任何替代方案有更好的效用,特别是一旦你把它与苹果的软件结合起来。

视频通话、FaceTime、电视和 AR

几乎在所有围绕 Apple Vision Pro 和新 Mac 机器的演讲和讨论中,都有一些关于我最感兴趣的事情的公告——视频通话。

FaceTime 和 Apple TV

视频通话的挑战之一是把它放在电视上。这曾经被称为视频通话的靠后体验,在这个世界上,当涉及到视频通话时,主要关注的是靠前。我记得在15年前或更早的时候,我与客户一起进行过这种概念验证和产品演示。

这些产品从未流行起来。

主要原因是硬件的成本,在客厅的摄像头和麦克风的位置/噪音之间保持隐私。

通过将 iPhone 连接在电视上,硬件成本和维护隐私的问题得到了解决。现在的麦克风比以前好多了,主要是由于有了更好的软件。

作为苹果公司,可以提供独特的体验,因为他们拥有并控制硬件——手机和机顶盒。这对其他供应商来说是很难做到的。

Android 设备能否实现同样的功能,连接到支持 Chromecast 的设备?还是要求太多了?

电视和/或机顶盒供应商是否致力于类似的解决方案?他们应该担心什么吗?

如果有的话,WebRTC 可以/应该在这些解决方案中扮演什么角色?

FaceTime 和 Apple Vision Pro

如何带着笨重的 AR/VR 头显进行视频通话?

首先,没有外部摄像头“监视你”,除非你添加一个。然后还有一个令人烦恼的事情……嗯……头显:

苹果公司通过在会议中生成你的真实头像来“解决”这个问题。这里值得注意的是,在Apple Vision Pro 发布视频本身中,苹果遗漏了三个重要的内容:

  1. 它们不会显示会议中的其他人如何看待戴着 Vision 头显的人
  2. 只有一个人戴着 Vision 头显,而我们有他的世界观,所以同样,我们无法看到其他戴着 Vision 头显的人在这样的通话中是什么样子
  3. 如何保持目光接触,甚至知道用户在看哪里?(当今的视频通话解决方案也存在这个问题)

与会的人怎么看她?他们看到她在看他们,还是在看她的头?他们看到的是现实生活环境还是虚拟背景?

我找不到任何玩过 Apple Vision Pro 头显并报告使用 FaceTime 的人,所以我假设这仍然是一项正在进行的工作。一旦将其发布到市场上,看看他们会想出什么,以及现实生活中的使用外观和感觉如何,这将是非常有趣的。

逼真的视频会议:就像身临其境

然后是远程呈现。这种无定形的东西对我来说可以翻译为:“除非太有钱,否则没有人可以购买昂贵的视频会议会议室”。

或者,如果我不那么讽刺的话——这就是我们努力通过视频会议实现的目标——如果我们拥有今天金钱所能买到的最好的技术,那将是 “就像在那里 “的终极体验。

Google Starline 项目是目前远程呈现技术的典型代表。

当前的网真迭代致力于提供 3D 逼真体验(显然需要眼神交流)。为了做到这一点,同时保持硬件成本降低并适应更多环境和硬件设备,它将依赖于人工智能——就像当今的其他一切一样。

我理解的结果是这样吗?

  • 背景去除/更换
  • 理解深度,能够按要求生成演讲者的三维表现,并适合观众的需要,而不是摄像机直接拍摄的内容。

现在看看 Apple Vision Pro 上的 FaceTime 真正意味着什么:

生成一个超现实的人物头像 – 这听起来非常类似于去除背景并使用相机生成说话者的 3D 表示(只是需要更多的工作和更少的准确性)。

Vision Pro 和 Starline 都致力于为远程用户提供逼真的体验。Starline 致力于打造会议室体验,捕捉现实世界的精髓。Vision Pro 在这里追求增强现实和虚拟现实的混合——不能真正说这是增强现实,但也不能说这是虚拟现实。

远程呈现系统最终可能每年售出 100 万台(如果你采取最乐观的结果,我对市场规模的预测是严重夸大的),而头显最终的销量将达到数千万台或更多一旦成功(这可能是一个现实的估计)。

视频会议体验同一连续体的两端所做的是添加 3D 概念,在视频中称为体积视频(我们需要使用华丽的词来炫耀我们的聪明才智)。

是的,这确实引出了我想要讨论的下一个主题——体积视频编码。

体积视频编码

我们现在有了虚拟宇宙、虚拟现实,增强现实等作品。

我们如何在其上进行沟通?现在的视频是什么样子的?

今天显而易见的答案是“这是一个 3D 视频”。现在我们需要能够压缩它并通过网络发送它——就像任何其他 2D 视频一样。

在AV1视频编解码器的发布和推广背后的开放媒体联盟,刚刚发布了一个与体积视频压缩有关的提案征集。从提案中,我想着重介绍一下以下几点:

  • 该联盟的体积视觉媒体 (VVM) 工作组于 2022 年 2 月成立, 这是相当新的。
  • 它由苹果首席工程师Khaled Mammou和腾讯杰出科学家兼腾讯多媒体实验室总经理刘杉领导。
  • 我在想Vision Pro目的是 “开发用于压缩体积视觉媒体的新工具” ——更好的3D视频压缩工具

现在推广这个,在苹果Vision Pro问世的同一周,可能是一个巧合。也可能不是。

创始成员包括您认为对 AR/VR 感兴趣的所有相关供应商:

  • Apple – 很显然
  • Cisco – 拥有 WebEx and telepresence
  • Google – 想想 Starline 项目
  • Intel & NVIDIA – 向我们所有人销售 CPU 和 GPU
  • Meta – 他们的元宇宙
  • Microsoft – 拥有 Teams、Hololens 和元宇宙愿景

其余的人也对元宇宙有既得利益,所以这一切都归结为:

🎯 AR/VR 需要新的视频编码技术来实现更好、更高效的 3D 通信(除其他外)

🎯 Apple Vision Pro 并不是唯一一个这样做的人,但很可能是迈出了第一个大胆步骤的人

🎯 对我来说最大的问题是——苹果会在这里推出自己的体积视频编解码器,宣传它们的开放性(认为 FaceTime 是开放的),还是会接受他们自己共同主持的开放媒体联盟工作?

🎯 如果他们确实在这里采用开放标准,他们也会将其提供给其他开发人员使用吗?我在想……WebRTC

元宇宙是基于Web的吗?

在将 WebRTC 的概念纳入元宇宙之前,还有一个先决条件——那就是Web本身。

我们会通过Web浏览器或类似的结构访问元宇宙吗?

对于一个开放的元空间来说,这将是我们希望拥有的东西,让我们自己在元空间中的身份随我们去任何地方——在Facebook、Roblox、Fortnite或任何其他我们去的 “域 “之间。

上周我们还收到了来自Matrix的公告:ntroducing Third Room TP2: The Creator Update

Matrix 是一种用于去中心化通信的开源和开放标准,一直在开发第三空间,对我来说,这是一种Web的元宇宙基础设施。就像所有与元宇宙有关的东西一样,这主要是一项进展中的工作。

我希望元宇宙本身是基于Web和开放的,但似乎大多数供应商都宁愿将其限制在自己的封闭花园中(Apple 和 Meta 当然会喜欢这种方式。许多其他供应商也会喜欢这种方式)。我确实看到开放标准最终可能如何在元宇宙中使用(就像开放媒体联盟正在做的工作),但是采用这些开放标准的供应商最终将决定其实施的开放程度——并且无论是否可以完成这一切,Web都是一个地方。

WebRTC 在元宇宙、AR 和 VR 中适合什么位置?

也许是,也许不是。

对 WebRTC 的松绑使得它既是一种选择,又使我们离将 WebRTC 作为未来元宇宙的一部分越来越远。

没有 Web 意味着没有真正依赖 WebRTC。

拥有 WebRTC 中的工具来帮助元宇宙中的开发人员意味着即使没有 Web 浏览器角度,也有动力使用和采用它。

WebRTC 在某些时候需要处理一些新技术要求,以正确支持元宇宙用例:

  • 体积视频编码
  • 提高空间音频能力
  • 可混合的音频流数量(目前最大数量为 3)

我们距离这个目标还很遥远,除了 WebRTC 本身之外,还需要加入许多其他技术才能实现这一切。

Apple 的新 Vision Pro 可能会加速 WebRTC 的发展轨迹,也可能会起到相反的作用,从而巩固原生应用程序中的元宇宙世界。

最后我想用 Jason Fried 的《未来的愿景》来结束这篇文章,它探讨了AR/VR和生成性人工智能,以及它们在许多方面是如何完全相反的。

本文转载自实时互动网,文章出处《Apple Vision、VR/AR、元宇宙及它对 WebRTC 的意义》

Logo

致力于链接即构和开发者,提供实时互动和元宇宙领域的前沿洞察、技术分享和丰富的开发者活动,共建实时互动世界。

更多推荐