Paints-Undo – генерація покрокового відео процесу малювання за вихідним зображенням

Paints-Undo – це проєкт lllyasviel (розробник ForgeUI, FooocusUI, Controlnet, IC-Light), метою якого є надання базових моделей людської поведінки під час малювання з надією, що майбутні моделі штучного інтелекту зможуть краще відповідати реальним потребам людей-художників.

Проєкт являє собою сімейство моделей, які приймають зображення як вхідні дані, а потім виводять послідовність малювання цього зображення.
Модель відображає всі види людської поведінки: малювання ескізів, малювання, розфарбовування, затінення, перетворення форм, перевертання вліво-вправо, настройку колірної кривої, зміну видимості шарів, зміну загальної ідеї в процесі малювання.

Обчислювальні потреби: 24 ГБ VRAM на Nvidia 4090 і 3090TI, мінімальні потреби – 12-16 ГБ VRAM.
На опрацювання одного зображення піде в середньому 5-10 хвилин для відео тривалістю 25 секунд з FPS=4 у роздільній здатності 512х320 і нижче.

Проєкт складається з 2 моделей :
Paints_undo_single_frame – модель бере 1 зображення і кожен зазначений крок за окрему ітерацію у зворотному від результату порядку (пояснення на прикладі з живим малюванням, де один рух пензля = одному кроку для моделі. Діапазон кроків: від 0 до 999, де 0 – закінчене зображення, а 999 – перший рух пензля).

Paints_undo_multi_frame – модель бере 2 зображення і виводить 16 проміжних кадрів між двома вхідними зображеннями. Результат набагато послідовніший, ніж у однокадрової моделі, але також набагато повільніший, менш “творчий” і обмежений 16 кадрами.

Архітектура моделей являє собою модифіковану SD 1.5, крім цього включає компоненти 3D-UNet, VAE, CLIP, CLIP-Vision, Image Projection.

Популярні Пости