VoxHammer: Революционная нейросеть от Tencent для точного редактирования 3D-объектов на локальном уровне

Исследователи компании Tencent разработали открытую модель для машинного обучения, предназначенную для локального редактирования трехмерных объектов. Основное преимущество этой нейросети заключается в том, что она осуществляет изменения непосредственно в исходном латентном 3D-пространстве, а не на основе многократных изображений.

При редактировании VoxHammer сначала получает инвертированную траекторию и кэширует KV-токены. Затем начинается процесс «воссоздания» 3D-модели с учётом новых данных, таких как текстовые запросы, изображения и наложенные маски. Если пользователь не указывает на необходимость изменения определенного элемента, модель оставляет его без изменений. В результате получается тот же трёхмерный объект, но с точечными правками и без видимых артефактов.

В отличие от других методов, которые при каждой итерации заново генерируют объект из множества изображений под разными углами, VoxHammer сохраняет модель более стабильно. Это позволяет избежать непредсказуемых отличий между новыми и оригинальными версиями.

VoxHammer можно использовать в локальном режиме. Авторы рекомендуют запускать программу на компьютерах с Ubuntu версии 20.04 или 22.04. Также потребуется видеокарта Nvidia A100 с 80 ГБ видеопамяти.

Исходный код проекта доступен и опубликован на GitHub. На платформе Hugging представлен бенчмарк для оценки сохранности неизменённых областей.