Nerf

NeRF-Player streamt dynamische volumetrische Szenen – auch für VR

NeRFs repräsentieren 3D-Szenen in einem neuronalen Netz. Eine neue Arbeit eines internationalen Teams, zu dem auch die ETH Zürich gehört, öffnet die KI-Technologie für dynamische Szenen.

Im Sommer 2020 stellten Google-Forscher Neural Radiance Fields (NERF) vor, einen KI-Prozess, der 3D-Tiefendaten aus 2D-Bildern wie Fotos extrahieren kann. NERF kann so aus mehreren Fotos, die aus unterschiedlichen Blickwinkeln geschossen werden, ein texturiertes 3D-Modell erstellen. Neural Radiance Fields (NeRFs)  können 3D-Szenen so aus vorher ungesehenen Blickwinkeln rendern. Das ermöglicht etwa eine 360-Grad-Kamerafahrt um ein Objekt, eine Tour per Drohnenaufnahme oder der Flug durch die Innenräume eines Restaurants. Die Technologie kann so genutzt werden, um fotorealistische 3D-Objekte zu generieren.

In nahezu allen Fällen handelt es sich jedoch um statische Szenen oder Objekte, da mit Bewegungen eine zeitliche Dimension in den Trainingsprozess einfliesst, die bisher schwer zu lösen ist.

NeRFs für dynamische Szenen

In einer neuen Forschungsarbeit zeigt ein Team der University at Buffalo, der ETH Zürich, InnoPeak Technology und der Universtiät Tübingen nun, wie NeRFs dynamische Szenen repräsentieren können und so eine 4D-Repräsentation lernen.

Als Input dienen RGB-Bilder verschiedener Kameras oder einer einzigen, sich bewegenden Kamera. In den Aufnahmen sind etwa sich bewegende Menschen zu sehen oder jemand schüttet Kaffee in ein Glas.

Damit NeRFs dynamische Szenen lernen, teilt ein sogenanntes Dekompositionsfeld die Szene in verschiedene Bereiche auf und danach teilt das Team dynamische Szenen in drei temporale Muster auf: statische, deformierende und neue Bereiche.

Im Falle des Kaffees bleibt etwa das Holzbrett statisch, auf dem das Glas steht. Der Inhalt des Glases erscheint neu und die sichtbare Hand deformiert sich. Ein Dekompositionsfeld übernimmt die Aufteilung der Szene in die drei Kategorien. Jeder Bereich wird von einem eigenen Neural Field repräsentiert. Die Forschenden entkoppeln in ihrem Ansatz zudem temporale und räumliche Dimensionen, um die Repräsentation zu verbessern.

 Virtual Reality als Vision

Die dekompositionale Repräsentation der dynamischen Szene reduziert visuelle Artefakte im Vergleich zu anderen Ansätzen deutlich. Das Team zeigt zudem mit NeRFPlayer eine Möglichkeit, die gelernten Repräsentationen mit begrenzten Bitraten in Echtzeit zu streamen.

Durch Nvidias Framework InstantNGP, mit dem ein neuronales Netz innerhalb von Sekunden Repräsentationen von Gigapixel-Bildern, 3D-Objekten und NeRFs lernen kann, ist die vorgestellte Methode zudem schnell.

In der Arbeit bezeichnet das Team die visuelle Erkundung einer realen 4D räumlich-zeitlichen Umgebung für Virtual Reality als Vision und sieht die eigene Arbeit als Beitrag zu diesem Ziel.

«Die visuelle Erkundung eines realen 4D-Raums frei in VR ist eine langjährige Aufgabe. Die Aufgabe ist besonders reizvoll, wenn nur wenige oder sogar nur eine einzige RGB-Kamera für die Erfassung der dynamischen Szene verwendet wird», heisst es im Papier.

Die NeRF-Demonstrationen haben ihren Ursprung in einer Google-Forschungsarbeit aus 2020 zu räumlich gefilmten Lichtfeldvideos.

Quelle: Mixed / the decoder
Verwandte Beiträge
DE