諸如Varjo XR-3、Quest Pro、Lynx R-1等頭顯或是未來幾年內體驗增強現實的最佳方式。采用透明光學器件的傳統AR頭顯(如HoloLen 2和Magic Leap 2)一般是通過波導顯示器將AR元素直接投射到眼睛,而前述設備則是利用外置攝像頭拍攝物理環境,然后再將其顯示在不透明顯示器。在這里,系統可以根據需要用AR元素進行擴展。
人工視線合成:一個大問題
上面所說的技術通常稱為透視AR。盡管透視AR擁有一定的優勢,但它同樣存在挑戰:當使用傳感器數據重建物理環境時,如何令視圖看起來像是用戶在現實世界中用雙眼看到的一樣。
分辨率、顏色保真度、深度表示和透視等都必須與自然視覺印象相對應,并在用戶移動頭部時以盡可能少的延遲進行修改。
透視尤其給這項技術帶來了巨大的困難,因為前置攝像頭的位置與眼睛的位置不完全匹配。這種視角轉換可能會導致不適和視覺偽影。
實際上,Meta的研究人員一直在研究相關的問題,并已在8月舉行的Siggraphh 2022大會介紹了一項創新:使用人工神經網絡重建視覺透視,亦即NeuralPassthrough神經透視。
如上圖所示,由于攝像頭和眼睛位置的不匹配,Quest 2的黑白透視產生了扭曲,而且細節方面存在缺陷。但Meta的NeuralPassthrough神經透視能夠產生透視正確的高質量結果。
人工智能創建:高質量的結果
團隊提出的NeuralPasthrough利用了深度學習的最新進展,將Pasthrought化解為基于圖像的神經渲染問題。具體而言,研究人員聯合應用學習的立體深度估計和圖像重建網絡,通過端到端方法生成眼睛視點圖像。
Meta開發的人工智能算法可以估計房間和房間內對象的深度,并重建與眼睛相對應的人工視角。相關模型使用合成數據集進行訓練:從不同視角顯示80個空間場景的圖像序列。產生的人工神經網絡十分靈活,可以應用于不同的攝像頭和眼睛距離。
與Meta Quest 2和其他透視方法相比,NeuralPassthrough提供了非常出色的圖像質量,并滿足透視校正立體注視合成的要求,如上面的視頻所示。
當然,所述技術存在一定的局限性。例如,結果的質量在很大程度上取決于人工智能空間估計的準確性。深度傳感器可以改善未來的結果。另一個挑戰是AI模型無法重建對象的透視依賴反射,而這反過來會導致偽影。
再一個問題是計算能力:專門為研究目的而構建的原型是基于臺式PC提供動力,包括Intel Xeon W-2155和兩枚Nvidia Titan V。結果是分辨率為1280 x 720像素,延遲為32毫秒的透視圖像,但這對高質量透視而言分辨率太低,而延遲太高。
相關論文:NeuralPassthrough: Learned Real-Time View Synthesis for VR
所以,Meta表示:“為了提供令人信服的透視體驗,這一領域需要在圖像質量(抑制顯著的扭曲和模糊偽影)方面取得重大進展,同時滿足嚴格的實時、立體和寬視場要求。解決可穿戴計算設備移動處理器的進一步限制意味著未來的路途依然非常遙遠。”