Китайська платформа коротких відео Kuaishou представила Kling – модель перетворення тексту у відео. Клінг приєднується до зростаючої області подібних моделей, які можуть створювати відео з текстових описів, як Sora з OpenAI та нещодавно представлений Google Veo.
Kling може створювати відео з роздільною здатністю 1080p зі швидкістю 30 кадрів на секунду і максимальною тривалістю дві хвилини. Модель може створювати зображення фізичного світу, включно з точними рухами та взаємодіями об’єктів.
Sora by OpenAI is insane.
— Angry Tom (@AngryTomtweets) June 6, 2024
But KWAI just dropped a Sora-like model called KLING, and people are going crazy over it.
Here are 10 wild examples you don't want to miss:
1. A Chinese man sits at a table and eats noodles with chopstickspic.twitter.com/MIV5IP3fyQ
Клінг використовує 3D-реконструкцію обличчя і тіла для створення реалістичних персонажів з повним спектром виразів і плавними рухами кінцівок. Ось приклад Google Veo.
Our video generation model Veo can create clips from a single reference image. 🖼️
— Google DeepMind (@GoogleDeepMind) May 29, 2024
These can follow the original visual style alongside instructions from a text prompt. Let’s take a look. 🧵 pic.twitter.com/TOELuwN09p
Наразі Kling доступний у відкритому доступі, а це означає, що користувачі можуть експериментувати з можливостями моделі. Це контрастує з обмеженнями глобального доступу для майбутньої моделі OpenAI “Sora”.
Kwai just dropped the bomb on video generation.
— Angry Tom (@AngryTomtweets) June 9, 2024
But how do they compare to their closest rival?
Kwai: Kling vs. OpenAI: Sora
1. POV footage of an ant navigating the inside of an ant nest pic.twitter.com/9V0iW4Rtz1
Розробка Клінга є яскравим прикладом досягнень Китаю в галузі штучного інтелекту. Але загалом дивно, наскільки далеко просунувся ШІ менш ніж за два роки. Ось довідкове відео:
Crazy how far AI video generation has come in just 1 Year. pic.twitter.com/uKX9zS6WsB
— Gitz (@Gitz__) June 7, 2024
Випуск Kling у поєднанні з майбутнім випуском Sora передбачає подальший прогрес у технології перетворення тексту у відео. Хоча довгостроковий вплив і доступність цих моделей ще належить побачити, їхній розвиток означає динамічну картину в галузі створення відео за допомогою штучного інтелекту.