Дослідницька група компанії Meta* випустила штучний інтелект VFusion3D, призначену для генерації тривимірних моделей. Розробники заявляють, що ШІ показує найкращі результати за максимальною роздільною здатністю моделей і створює мінімум артефактів.

Команда проєкт зазначила, що у світі поки що немає нейромереж для генерації якісних тривимірних моделей через те, що складно отримати дані для навчання. Ситуація простіша з текстами, музикою і відео – цих даних багато у вільному доступі. Дослідники Meta* вирішили цю проблему, зібравши власний датасет синтетичних даних, створений за допомогою відеодифузії. На цьому наборі й навчали VFusion3D.
Підсумкова нейромережа генерує 3D-об’єкти з високою роздільною здатністю і з меншою кількістю помилок, якщо порівнювати результат з іншими відкритими рішеннями. При цьому для генерації ШІ треба передати всього одну фотографію бажаного об’єкта. Розробники протестували VFusion3D разом із LGM та OpenLRM. Помітно, що нейромережа від Meta* краще передає деталі.

Розробники зазначають, що VFusion3D можна масштабувати. Для цього планується створити потужнішу модель машинного навчання і збільшити кількість даних у датасеті. У перспективі нейромережа може стати базовою, на основі якої можна буде реалізовувати інші режими, наприклад, генерацію тривимірних об’єктів за текстовим описом.