Meta випускає моделі штучного інтелекту, які генерують текст та зображення

Компанія Meta випустила п’ять нових моделей штучного інтелекту (ШІ), в тому числі ті, що можуть генерувати текст та зображення, а також здатні розпізнавати мову, згенеровану ШІ, у великих аудіофрагментах.

Моделі були оприлюднені у вівторок (18 червня) командою Meta з фундаментальних досліджень штучного інтелекту (FAIR), йдеться у прес-релізі компанії, опублікованому у вівторок.

Публічно ділячись цими дослідженнями, ми сподіваємося надихнути на нові ітерації й, в кінцевому рахунку, допомогти просуванню ШІ у відповідальний спосіб

– йдеться в релізі Meta.

Одна з нових моделей, Chameleon, є сімейством змішаних модальних моделей, які можуть розуміти та генерувати як зображення, так і текст, йдеться в релізі. Ці моделі можуть приймати вхідні дані, що включають як текст, так і зображення, і виводити комбінацію тексту і зображень. Мета припускає, що ця можливість може бути використана для створення підписів до зображень або для використання текстових підказок і зображень для створення нової сцени.

Також у вівторок було випущено попередньо навчені моделі для завершення коду. Ці моделі були навчені за допомогою нового підходу Meta до багатозначного прогнозування, в якому великі мовні моделі (LLM) навчаються прогнозувати кілька майбутніх слів одночасно, замість попереднього підходу, коли вони прогнозували по одному слову за один раз, йдеться в релізі.

Третя нова модель, JASCO, пропонує більше контролю над створенням музики ШІ. Замість того, щоб покладатися в основному на текстові вхідні дані для створення музики, ця нова модель може приймати різні вхідні дані, включаючи акорди або біт, йдеться в релізі. Ця можливість дозволяє об’єднати як символи, так і аудіо в одній моделі перетворення тексту на музику.

Інша нова модель, AudioSeal, має технологію нанесення водяних знаків на звук, яка дозволяє локалізувати мовлення, згенероване штучним інтелектом, а це означає, що вона може точно визначити сегменти, згенеровані штучним інтелектом, у великому аудіофрагменті, повідомляється в релізі. Ця модель також виявляє мову, створену штучним інтелектом, у 485 разів швидше, ніж попередні методи.

П’ята нова дослідницька модель ШІ, випущена у вівторок командою FAIR компанії Meta, покликана збільшити географічне і культурне розмаїття в системах перетворення тексту в зображення, йдеться в релізі. Для цього компанія випустила код оцінки географічної нерівності та анотації для поліпшення оцінки моделей перетворення тексту в зображення.

У квітневому звіті про прибутки Meta заявила, що капітальні витрати на ШІ та підрозділ Reality Labs, що займається розробкою метапростору, становитимуть від $35 млрд до $40 млрд до кінця 2024 року – витрати на $5 млрд вище, ніж вона спочатку прогнозувала.

Ми створюємо низку різних послуг зі штучного інтелекту, від нашого AI-асистента до додатків і окулярів доповненої реальності, API [інтерфейсів прикладного програмування], які допомагають творцям залучати свої спільноти та з якими можуть взаємодіяти шанувальники, до бізнес-штучного інтелекту, який, як ми вважаємо, з часом використовуватиме кожен бізнес на нашій платформі

– заявив генеральний директор Meta Марк Цукерберг 24 квітня під час щоквартального телефонного дзвінка про прибутки компанії.

Популярні Пости