Вийшла YuE – відкрита модель машинного навчання для генерації музики

Дослідники Гонконзького університету науки та технології представили відкриту нейромережу для генерації музики. Автори проєкту називають свою розробку безкоштовним аналогом Suno. Модель може генерувати інструментальні композиції та пісні.

У дослідженні зазначається, що в задачах генерації пісень на основі тексту все ще немає чіткого розуміння, як розв’язувати деякі проблеми. Наприклад, у багатьох реалізаціях не виходить зберегти характер композиції до самого кінця, а ще нейромережа спотворює слова, щоб вони краще лягали на музику. Є вдалі пропрієтарні реалізації, але в дослідників немає можливості дізнатися, які підходи в них застосовуються.

Для розв’язання цієї проблеми дослідники розробили сімейство моделей машинного навчання YuE на базі мовної моделі LLaMA. Нейромережа дає змогу генерувати треки тривалістю до п’яти хвилин з узгодженою музичною структурою. Для цього автори проєкту використовували аудіотокенізатор з поліпшеним розумінням семантики для зниження витрат на навчання і текстовий ланцюжок думок для кращої роботи з контекстом. Для масштабованості застосували триступеневий метод навчання.

Підсумкова модель може генерувати композиції різними мовами та працює в багатомовному режимі. Наприклад, рядки пісні можуть бути одразу трьома мовами. У такому разі нейромережа згенерує коректну композицію.

Зазначається, що для запуску YuE необхідно досить багато вільної відеопам’яті. Наприклад, для запуску двох сесій (генерація одного куплету й одного приспіву) потрібно близько 24 ГБ пам’яті. Для запуску чотирьох і більше сесій вже буде потрібно не менше 80 ГБ відеопам’яті. Також наголошується, що генерація 30 секунд аудіо на Nvidia H800 займе 150 секунд, а на декількох RTX 4090 – 360 секунд.

Код проєкту опублікували на GitHub. Крім коду в репозиторії є інструкції із запуску та поради щодо складання запитів. Приклади роботи нейромережі доступні на офіційному сайті. Текст дослідження автори проєкту опублікують пізніше.

Популярні Пости