DeepSeek випустила мультимодальну нейромережу Janus-Pro-7B

Китайська компанія DeepSeek випустила мультимодальну нейромережу Janus-Pro-7B. Вона потрібна для розпізнавання і генерації зображень. У бенчмарках нейромережа випереджає DALL-E 3 від OpenAI та Stable Diffusion.

Розробники нейромережі зазначають, що Janus Pro – поліпшена версія Janus, який компанія випускала раніше. В оновленні інженери оптимізували стратегію навчання, збільшили датасет і масштабували розмір самої моделі. Усе це дало змогу вийти на новий рівень у завданнях генерації картинок за текстовим описом і аналізу зображень. У бенчмарках GenEval і DPG-Bench нейромережа перевершує відкриту Stable Diffusion 3 Medium і комерційну DALL-E 3 від OpenAI.

Модель машинного навчання Janus-Pro-7B опубліковано на майданчику Hugging Face. Команда проєкту закликає сторонніх дослідників і розробників приєднатися до проєкту. Код моделі відкритий і поширюється за ліцензією MIT, а сама нейромережа – за ліцензією DeepSeek.

У GitHub-репозиторії доступна інструкція з локального запуску нейромережі.

Популярні Пости