Wraz z rozwojem internetu, a wraz z nim łączności, wizualizacje coraz częściej stawały się kluczowym elementem, który wyróżniał się i przykuwał uwagę użytkowników w coraz bardziej zatłoczonych kanałach społecznościowych.
Zaczęło się od statycznych obrazów, potem przeszło do GIF-ów, a teraz wideo jest najbardziej angażującym typem treści. Ale w istocie, naprawdę trzeba angażujące, ciekawe wizualizacje, aby zatrzymać ludzi w połowie przewijania, który, w przeważającej części, jest znacznie bardziej skuteczne niż próbuje złapać je z nagłówka lub dowcipny one-liner.
Dlatego też jest to interesujące – dzisiaj Google nakreśliło swój najnowszy proces tworzenia obrazów 3D o nazwie „LOLNeRF” (tak, naprawdę), który jest w stanie dokładnie oszacować strukturę 3D z pojedynczych obrazów 2D.
„Istnieje wiele sytuacji, w których przydatne byłoby poznanie struktury 3D z pojedynczego obrazu, ale jest to zazwyczaj trudne lub niemożliwe. Przeczytaj o frameworku, który uczy się modelować strukturę i wygląd 3D ze zbiorów obrazów z pojedynczym widokiem”
– Google AI (@GoogleAI) September 13, 2022
Jak widać na tych przykładach, proces LOLNeRF może wziąć twój zwykły, dwuwymiarowy obraz i zamienić go w wyświetlacz 3D.
Który Facebook również oferował wersję przez jakiś czas, ale nowy proces LOLNeRF jest znacznie bardziej zaawansowanym modelem, umożliwiającym większą głębię i interaktywność, bez konieczności zrozumienia i uchwycenia pełnych modeli 3D.
Jak wyjaśnia Google:
„W „LOLNeRF: Learn from One Look”, proponujemy ramy, które uczą się modelować strukturę 3D i wygląd z kolekcji obrazów z pojedynczym widokiem. LOLNeRF uczy się typowej struktury 3D klasy obiektów, takich jak samochody, ludzkie twarze czy koty, ale tylko z pojedynczych widoków dowolnego obiektu, nigdy tego samego obiektu dwa razy.”
Proces jest w stanie symulować kolor i gęstość dla każdego punktu w przestrzeni 3D, poprzez wykorzystanie wizualnych „punktów orientacyjnych” w obrazie, w oparciu o uczenie maszynowe – zasadniczo replikując to, co system zna z podobnych obrazów.
„Każda z tych predykcji 2D odpowiada semantycznie spójnemu punktowi na obiekcie (np. czubek nosa lub kąciki oczu). Możemy następnie wyprowadzić zestaw kanonicznych lokalizacji 3D dla punktów semantycznych, wraz z szacunkami póz kamery dla każdego obrazu, tak aby projekcja punktów kanonicznych na obrazy była jak najbardziej spójna z punktami orientacyjnymi 2D.”
Z tego, proces jest w stanie renderować bardziej dokładne, wielowymiarowe wizualizacje z jednego, statycznego źródła, co może mieć szereg zastosowań, od sztuki AR do rozszerzonego tworzenia obiektów w VR, a także przyszłej przestrzeni metaverse.
Rzeczywiście, jeśli proces ten jest w stanie dokładnie stworzyć trójwymiarowe zobrazowania szerokiej gamy obrazów 2D, może to znacznie przyspieszyć rozwój obiektów 3D, które pomogą zbudować światy metaverse. Koncepcja metawersum zakłada, że będzie ono w stanie ułatwić praktycznie każdą interakcję i doświadczenie z prawdziwego życia, ale aby to zrobić, potrzebuje modeli 3D obiektów z prawdziwego świata, z całego spektrum, jako materiału źródłowego do napędzania tego nowego kreatywnego podejścia.
Co by się stało, gdybyś mógł po prostu wprowadzić katalog obrazów internetowych do systemu, a następnie zlecić mu wyplenienie ich trójwymiarowych odpowiedników, do wykorzystania w reklamach, promocjach, interaktywnych doświadczeniach, etc.?
Istnieje wiele sposobów, w jaki można by to wykorzystać, i będzie interesujące zobaczyć, czy Google jest w stanie przełożyć proces LOLNerf na bardziej praktyczne, dostępne opcje wykorzystania dla własnych ambicji AR i VR.