Рубрики
Технологии

Matrix3D — новая нейросеть Apple, которая превращает фотографии в 3D-модели

Apple неожиданно для всех представила нейросеть Matrix3D — инструмент, который умеет превращать обычные фотографии объектов в фотореалистичные 3D-модели. И это не просто очередной эксперимент в лаборатории купертиновцев: компания выложила в открытый доступ ее код. По сути, любой желающий теперь может собрать свою мини-лабораторию по фотограмметрии прямо у себя дома — было бы желание и видеокарта с поддержкой CUDA.

❗ЕЩЕ БОЛЬШЕ СТАТЕЙ ОБ APPLE ИЩИТЕ В НАШЕМ ДЗЕНЕ СОВЕРШЕННО БЕСПЛАТНО

Главная фишка Matrix3D — в том, что это не одна из тех нейросетей, которые умеют что-то одно. Здесь всё в одном: она сама определяет положение камеры, восстанавливает недостающие ракурсы объекта и даже прогнозирует глубину сцены. За это отвечает мультимодальный диффузионный трансформер — звучит сложно, но в переводе с научного на бытовой это значит: вместо нескольких разных нейросетей теперь работает одна, и делает она это точнее и быстрее.

Обучение Matrix3D — отдельная гордость команды Apple. Они использовали подход Masked Autoencoder (MAE), при котором нейросети скармливают частично «спрятанные» изображения, а она учится восстанавливать пропущенные куски. Благодаря этому Matrix3D может буквально «додумать» недостающие ракурсы или даже сгенерировать карту глубины всего по трём фотографиям. Это сильно упрощает процесс 3D-реконструкции и делает модель пригодной даже для сценариев с ограниченными данными.

ПОДПИШИСЬ НА НАШ ЧАТИК В ТЕЛЕГРАМЕ. ТАМ ТЕБЕ ОТВЕТЯТ НА ЛЮБЫЕ ВОПРОСЫ

Matrix3D — новая нейросеть Apple, которая превращает фотографии в 3D-модели. Достаточно сделать несколько снимков, и нейросеть создаст модель, которую можно вращать в любую сторону. Изображение: habr.com. Фото.

Достаточно сделать несколько снимков, и нейросеть создаст модель, которую можно вращать в любую сторону. Изображение: habr.com

Если хочется попробовать — всё уже доступно на GitHub. Исследователи протестировали модель в Ubuntu 20.04, используя PyTorch 2.4 и Python 3.10. Среду лучше воспроизводить точно по инструкции, иначе можно наткнуться на зависимости, связанные с CUDA.

В сухом остатке: Matrix3D — это пример того, как Apple не просто делает железки, а ещё и открывает доступ к серьёзным исследованиям. С такой нейросетью будущее фотограмметрии может стать куда более доступным — и куда более реалистичным.

Matrix3D — новая нейросеть Apple, которая превращает фотографии в 3D-модели. Matrix3D умеет превращать фотографии в полноценные 3D-модели. Фото.

Matrix3D умеет превращать фотографии в полноценные 3D-модели