Paints-Undo – це проєкт lllyasviel (розробник ForgeUI, FooocusUI, Controlnet, IC-Light), метою якого є надання базових моделей людської поведінки під час малювання з надією, що майбутні моделі штучного інтелекту зможуть краще відповідати реальним потребам людей-художників.
Проєкт являє собою сімейство моделей, які приймають зображення як вхідні дані, а потім виводять послідовність малювання цього зображення.
Модель відображає всі види людської поведінки: малювання ескізів, малювання, розфарбовування, затінення, перетворення форм, перевертання вліво-вправо, настройку колірної кривої, зміну видимості шарів, зміну загальної ідеї в процесі малювання.
Обчислювальні потреби: 24 ГБ VRAM на Nvidia 4090 і 3090TI, мінімальні потреби – 12-16 ГБ VRAM.
На опрацювання одного зображення піде в середньому 5-10 хвилин для відео тривалістю 25 секунд з FPS=4 у роздільній здатності 512х320 і нижче.
Проєкт складається з 2 моделей :
Paints_undo_single_frame – модель бере 1 зображення і кожен зазначений крок за окрему ітерацію у зворотному від результату порядку (пояснення на прикладі з живим малюванням, де один рух пензля = одному кроку для моделі. Діапазон кроків: від 0 до 999, де 0 – закінчене зображення, а 999 – перший рух пензля).
Paints_undo_multi_frame – модель бере 2 зображення і виводить 16 проміжних кадрів між двома вхідними зображеннями. Результат набагато послідовніший, ніж у однокадрової моделі, але також набагато повільніший, менш “творчий” і обмежений 16 кадрами.
Архітектура моделей являє собою модифіковану SD 1.5, крім цього включає компоненти 3D-UNet, VAE, CLIP, CLIP-Vision, Image Projection.