Недавно, когда я в очередной раз приехал в гости к своей пожилой маме в Германию, я задумался, что, возможно, это один из последних моих визитов в её уютный домик, в котором она живет уже более двадцати лет. Поэтому я достал телефон и стал делать множество снимков, пытаясь сохранить как можно больше воспоминаний: теплый камин, полки с книгами, знакомыми с детства, и старенькую садовую скамейку, на которой все родственники оставили свои подписи на одном из дней рождения много лет назад.
После этого я решил попробовать что-то новое и открыл приложение Scaniverse — 3D-сканер от производителя Pokémon Go компании Niantic. Я начал превращать некоторые из этих предметов в трехмерные объекты, аккуратно передвигаясь вокруг них с телефоном в руках, чтобы захватить каждый угол. Результаты оказались не идеальными по краям, но все же впечатляющими. Когда позже я открыл эти сканы на телефоне и в VR-шлеме, у меня появилось ощущение, будто я нахожусь прямо перед той самой скамейкой. Этот опыт глубоко тронул меня эмоционально.
Такая возможность появилась благодаря новому методу 3D-захвата — Gaussian splatting. Это изобретение появилось менее двух лет назад, но уже производит фурор в технологической индустрии. Niantic и Google применяют его в своих картах, Snap добавил поддержку этой технологии в свою платформу разработчиков Lens Studio, а Meta планирует создать метавселенную, которая будет практически неотличима от реальности.
Технологические компании в восторге от Gaussian splatting, поскольку метод позволяет фотореалистично захватывать и воссоздавать трёхмерные объекты. Вскоре каждый сможет сканировать целые помещения, что изменит подход к записи 3D-видео в Голливуде и за его пределами. Сочетание этой технологии с генеративным искусственным интеллектом может не только сохранить существующие пространства, но и перенести нас в созданные 3D-миры.
Это важный поворотный момент, утверждает эксперт по AR/VR и инвестор Типатат Ченнавасин. Как соучредитель и генеральный партнер фонда Venture Reality Fund, Ченнавасин заинтересован в успехе этой технологии, однако в качестве энтузиаста и бывшего 3D-художника он сравнивает её с голодеком из «Звездного пути», где члены экипажа могли входить в голографические трехмерные симуляции реальных и вымышленных пространств. «Мы приближаемся к фотореалистичному голодеку».
Создание трёхмерной карты мира — это сложная задача. Захват объектов в 3D даже на телефоне — не ново. Однако предыдущие способы полагались на полигоны — если вы когда-либо использовали мобильное AR-приложение, вы видели эти треугольные сетки.
Метод на основе полигональных сеток подходит для простых объектов с ровными поверхностями, но испытывает трудности с детализированными текстурами и сложным освещением. Объекты, захваченные таким способом, зачастую выглядят пластиковыми и нереалистичными, а 3D-сканы людей кажутся как будто они слишком щедро использовали гель для волос. «Это многообещающе, но всегда имело существенные ограничения,» говорит Ченнавасин.
Все изменилось летом 2023 года, когда группа европейских ученых опубликовала статью о «3D Gaussian splatting». Их подход заключается в отказе от сеток в пользу захвата 3D-объектов в виде размытых, полупрозрачных пятен, известных как гауссианы.
Каждое такое пятно захватывается с точной информацией о цвете, положении, масштабе, вращении и уровне прозрачности. Соединив миллионы таких пятен, мы получаем более детализированное изображение 3D-объекта, которое показывает, как он выглядит с любого заданного угла. Используя машинное обучение, ученым удалось захватывать объекты с гораздо большей детализацией и точностью и отображать их в реальном времени без мощных графических станций.
Специалисты в области были поражены результатами. Теперь перед нами стоит возможность создания подлинного фотореалистичного 3D, отмечает Ченнавасин. «Это момент JPEG для пространственных вычислений.»
Старший вице-президент по инженерии компании Niantic Брайан МакКлендон считает Gaussian splats самым значительным достижением в 3D-графике за последние 30 лет. «Мы расцениваем это как фундаментальное изменение,» отметил он.
МакКлендон считает, что Gaussian splatting демократизирует 3D-сканирование, и Niantic стремится стать лидером в этой области. После приобретения в 2021 году приложения Scaniverse, Niantic добавила Gaussian splatting как технологию захвата в прошлом году. В августе компания выпустила новую версию Scaniverse с акцентом на эту технологию, а в октябре открыла свой формат файлов для Gaussian splats. В декабре Scaniverse расширилось до VR, позволив пользователям видеть Gaussian splats в шлемах Quest от Meta.
Niantic заинтересован в продвижении этой технологии не просто так. Scaniverse изначально был приложением для захвата личных объектов, но теперь компания поощряет пользователей сканировать статуи, фонтаны и другие публичные места. Эти сканы являются ключевыми элементами в создании 3D-карты мира, которая поддерживает такие игры, как Pokémon Go и Peridot, и другие геопространственные AR-опыт.
Сейчас в Scaniverse уже сотни тысяч таких сканов. McClendon надеется, что скоро их число достигнет миллиона.
Gaussian splats меняют не только способы захвата статичного контента. Стартап в области компьютерного зрения Gracia AI использует эту технологию для записи объемных 3D-видео, которые можно просматривать на устройствах Meta Quest. Один из таких видеоклипов показывает шеф-повара, готовящего блюдо, давая зрителям возможность наблюдать за его действиями с разных углов в VR и даже увеличивать изображение, чтобы рассмотреть, как нож разрезает кусок сырого лосося.
Gracia сняла это видео в профессиональной студии 3D-захвата, используя массив из 40 камер, направленных на повара с разных углов. Так специалисты записывали голографический контент для AR и VR в течение многих лет, однако переход от полигонов к Gaussian splats изменил все.
Раньше захват 3D-видео был сопряжен с многочисленными визуальными ограничениями, требующими строгого дресс-кода для снимаемых: без сложных узоров, ничего прозрачного, ничего свисающего, что могло бы вызвать странные артефакты. Когда несколько лет назад Microsoft запечатлела Дэвида Аттенборо подобным образом, им пришлось даже приклеивать его воротник к рубашке и использовать огромное количество лака, чтобы избежать каких-либо распущенных элементов, способных испортить процесс захвата.
С Gaussian splats все эти ограничения исчезают. «Нет ограничений по одежде, нет ограничений по волосам», — говорит соучредитель и генеральный директор Gracia Георгий Высоцкий. В то время как предыдущее поколение объемного видеозахвата требовало ослепительного света для устранения теней, Gracia смогла записывать сцены почти в полной темноте. «Вы можете оставить все тени и использовать художественное освещение,» отмечает Высоцкий. «С Gaussian splats можно получить потрясающую творческую свободу.»
Тем не менее, это не означает, что нет проблем. На данный момент фрагменты Gaussian splatting всё ещё требуют 9 ГБ данных на каждую минуту видео, что слишком много для потоковой передачи или чего-либо большего, чем короткая техническая демонстрация. Высоцкий утверждает, что компания сейчас работает над уменьшением этого объема до 2–3 ГБ в минуту, а 180-градусные объемные VR-видео могут занять всего 1 ГБ данных на минуту. Он представляет себе, что подобные клипы в конечном итоге заменят записи инструкторов в VR-приложениях для тренировок, таких как Supernatural, или профессиональный образовательный контент, поскольку они позволяют пользователям смотреть инструкции с разных углов.
Одна из самых амбициозных демонстраций Gaussian splats на данный момент была создана компанией Meta. Приложение Hyperscape, представленное на конференции Meta Connect этой осенью, — это приложение для шлемов Quest от Meta, позволяющее пользователям исследовать фотореалистичные 3D-рендеры. Приложение вышло с шестью отсканированными пространствами, включая пять студий художников и конференц-зал на кампусе Meta, который когда-то был офисом Марка Цукерберга.
Hyperscape позволяет свободно перемещаться в этих пространствах, что предоставляет захватывающий опыт с подобной визуальной точностью. Вы можете исследовать многочисленные странности в студии смешанных медиа-художника Дианы Хоффман в Сан-Франциско, где хранятся бесчисленные куклы и коробка с надписью «змеиная кожа и раковины». Вы можете полюбоваться обширной коллекцией Porsche визуального художника Дэниела Аршама и даже взглянуть на папоротники и деревья за окном бывшего офиса Цукерберга. Эти рендеры выглядят настолько реальными, что Meta была вынуждена включить предупреждение, чтобы не облокачиваться на какую-либо из изображенных мебели.
Сейчас Hyperscape скорее является одним из удачных технологических показов. Однако у Meta есть большие планы на Gaussian splats, как рассказал мне вице-президент по Meta Horizon OS и Quest Марк Рабкин на Meta Connect этой осенью. «Gaussian splats уже используются И работает на движке, который почти идентичен двигателю Horizon,» сказал Рабкин, имея в виду социальную VR-платформу Meta. «Так что путь, технологический, чтобы все это работало в мире, короткий.»
Meta видит сплаты как еще один инструмент для создателей VR, чтобы строить погружающие мироы и опыт для Horizon Worlds. Компания даже планирует в итоге позволить каждому отсканировать собственный дом и затем загрузить его цифровую копию в метавселенную. «Определенно,» сказал Рабкин. «Вот к чему мы стремимся.»
Сколько времени займет эта работа, неясно, и сможет ли Horizon Worlds в нынешнем виде выжить до этого момента, тоже открытый вопрос. Meta отказалась участвовать в дополнительных интервью для этой истории, но МакКлендон из Niantic предупредил, что не стоит недооценивать сложность создания сканирующего инструмента, подобного Hyperscape.
«Они фактически произвели идеальный вид,» сказал МакКлендон. Meta, вероятно, объединила несколько сканов для каждой комнаты и, возможно, также провела значительное количество ручной обработки и очистки, предположил он. И поскольку полученные сканы слишком велики для обработки в реальном времени на устройстве, Meta рендерит их в облаке и потоковыми передает на шлемы.
«Это не масштабируется, но выглядит действительно хорошо,» сказал МакКлендон. «Есть у них план масштабирования этого? Я не знаю.»
Технология Gaussian splatting развивается стремительными темпами. МакКлендон отметил, что скорость, с которой публикуются новые научные статьи по этой теме, схожа с исследованием генеративного AI. «Статьи публикуются сейчас так быстро,» сказал он. «Возбуждение реально.» И развиваемая ими технология быстро внедряется, добавил Ченнавасин. «Или превращается в стартапы.»
Одной из областей, где возможно прорывное открытие, является комбинация сплат и AI. Генеративный AI может улучшить захват и рендеринг Gaussian splats, потенциально позволяя компании такой, как Gracia AI, захватывать видео с значительно меньшим количеством камер. В то же время большее количество людей, занимающихся захватом 3D-объектов и сцен, также значительно увеличит количество высококачественных обучающих данных для генеративных 3D-видеомоделей.
Все это указывает на будущее, в котором каждый сможет создавать фотореалистичные трехмерные пространства с помощью AI-подсказок, захватов Gaussian splat или их комбинации, а затем посещать эти пространства, используя VR-шлемы или AR-очки.
«Убийственное приложение XR — это многопользовательский голодек,» сказал Ченнавасин. «Генеративный AI и Gaussian splats — это то, как мы создаем его с визуальной точностью, почти неотличимой от реальности. Это не произойдет в одночасье. Но это вполне реальная перспектива.»
Перспектива такого будущего поднимает вопрос: если бы у вас был голодек, что вы посетили бы в первую очередь? Фотореалистичные изображения далеких мест, которые вы еще не успели посетить? Знаменитые студии звукозаписи, музеи или библиотеки? Или, может быть, фантастические миры: средневековые замки, подземелья или съемочные площадки фильмов о Марвел?
Для меня, возможно, это будет уютный домик мамы и та самая скрипучая садовая скамейка.
Источник: TheVerge