Meta випускає моделі штучного інтелекту, які генерують текст та зображення

Компанія Meta випустила п’ять нових моделей штучного інтелекту (ШІ), в тому числі ті, що можуть генерувати текст та зображення, а також здатні розпізнавати мову, згенеровану ШІ, у великих аудіофрагментах.

Моделі були оприлюднені у вівторок (18 червня) командою Meta з фундаментальних досліджень штучного інтелекту (FAIR), йдеться у прес-релізі компанії, опублікованому у вівторок.

Публічно ділячись цими дослідженнями, ми сподіваємося надихнути на нові ітерації й, в кінцевому рахунку, допомогти просуванню ШІ у відповідальний спосіб
– йдеться в релізі Meta.

Одна з нових моделей, Chameleon, є сімейством змішаних модальних моделей, які можуть розуміти та генерувати як зображення, так і текст, йдеться в релізі. Ці моделі можуть приймати вхідні дані, що включають як текст, так і зображення, і виводити комбінацію тексту і зображень. Мета припускає, що ця можливість може бути використана для створення підписів до зображень або для використання текстових підказок і зображень для створення нової сцени.

Також у вівторок було випущено попередньо навчені моделі для завершення коду. Ці моделі були навчені за допомогою нового підходу Meta до багатозначного прогнозування, в якому великі мовні моделі (LLM) навчаються прогнозувати кілька майбутніх слів одночасно, замість попереднього підходу, коли вони прогнозували по одному слову за один раз, йдеться в релізі.

Третя нова модель, JASCO, пропонує більше контролю над створенням музики ШІ. Замість того, щоб покладатися в основному на текстові вхідні дані для створення музики, ця нова модель може приймати різні вхідні дані, включаючи акорди або біт, йдеться в релізі. Ця можливість дозволяє об’єднати як символи, так і аудіо в одній моделі перетворення тексту на музику.

Інша нова модель, AudioSeal, має технологію нанесення водяних знаків на звук, яка дозволяє локалізувати мовлення, згенероване штучним інтелектом, а це означає, що вона може точно визначити сегменти, згенеровані штучним інтелектом, у великому аудіофрагменті, повідомляється в релізі. Ця модель також виявляє мову, створену штучним інтелектом, у 485 разів швидше, ніж попередні методи.

П’ята нова дослідницька модель ШІ, випущена у вівторок командою FAIR компанії Meta, покликана збільшити географічне і культурне розмаїття в системах перетворення тексту в зображення, йдеться в релізі. Для цього компанія випустила код оцінки географічної нерівності та анотації для поліпшення оцінки моделей перетворення тексту в зображення.

У квітневому звіті про прибутки Meta заявила, що капітальні витрати на ШІ та підрозділ Reality Labs, що займається розробкою метапростору, становитимуть від $35 млрд до $40 млрд до кінця 2024 року – витрати на $5 млрд вище, ніж вона спочатку прогнозувала.

Ми створюємо низку різних послуг зі штучного інтелекту, від нашого AI-асистента до додатків і окулярів доповненої реальності, API [інтерфейсів прикладного програмування], які допомагають творцям залучати свої спільноти та з якими можуть взаємодіяти шанувальники, до бізнес-штучного інтелекту, який, як ми вважаємо, з часом використовуватиме кожен бізнес на нашій платформі
– заявив генеральний директор Meta Марк Цукерберг 24 квітня під час щоквартального телефонного дзвінка про прибутки компанії.

Meta випускає моделі штучного інтелекту, які генерують текст та зображення

Популярні Пости

Монокуляр нічного бачення AGM PVS 7 NL1: Погляд у темряву

Ігрові ноутбуки весни 2024

Підвищення популярності: як створити сторінку у Фейсбук та залучити більше аудиторії