Новий AI-прискорювач Trillium від Google вже доступний у хмарі GCP

Компанія Google представила новий ШІ-прискорювач TPU v6 під назвою Trillium, який вже доступний для тестування користувачами через Google Cloud Platform. За словами Google, цей прискорювач вважається найбільш передовим рішенням компанії за критерієм ціни і продуктивності, що робить його привабливим для завдань глибокого навчання і великих АІ-проєктів.

Trillium був офіційно анонсований у травні поточного року і має 32 ГБ пам’яті HBM з пропускною спроможністю 1,6 ТБ/с. У пристрій інтегровано третього покоління блоки SparseCore, призначені для оптимізації АІ-обробки, як-от системи рекомендацій і ранжування контенту. Інтерфейс ICI (Inter-Chip Interconnect), що забезпечує передачу даних на швидкості до 3,58 Тбіт/с, дає змогу цим прискорювачам ефективно взаємодіяти один з одним у кластері, що прискорює обробку великих обсягів даних.

Результати тестів Trillium засвідчили, що продуктивність під час навчання моделей, як-от Gemma 2-27b, MaxText Default-32b і Llama2-70B, збільшується більш ніж учетверо, а для LLama2-7b і Gemma2-9b – більш ніж учетверо, як порівняти з TPU v5e.

При інференсі моделі Stable Diffusion XL на Trillium було зафіксовано триразове збільшення продуктивності. За показником ціна/продуктивність TPU v6e демонструє зростання в 1,8 раза порівняно з TPU v5e і практично вдвічі – порівняно з TPU v5p.

Серед ключових переваг TPU v6e (версії Trillium) порівняно з попереднім TPU v5e виділяють:

  • Більш ніж чотириразове підвищення продуктивності при навчанні ШІ-моделей
  • Збільшення продуктивності інференсу до трьох разів
  • Поліпшення енергоефективності на 67 %
  • Підвищення пікової обчислювальної продуктивності в розрахунку на чип у 4,7 раза
  • Дворазове збільшення місткості HBM
  • Подвоєння пропускної здатності міжчіпового інтерконекту ICI

Кожен вузол складається з восьми TPU v6e, розташованих у двох NUMA-доменах, двох процесорів з 180 vCPU, 1,44 ТБ оперативної пам’яті і чотирьох 200G-адаптерів (по два на кожен CPU) для зв’язку з іншими системами. У кластері можуть бути з’єднані до 256 пристроїв Trillium, забезпечуючи пропускну здатність мережі до 25,6 Тбіт/с. Для об’єднання великих кластерів у десятки тисяч прискорювачів використовується оптична платформа Google Jupiter, що досягає пропускної здатності 13 Пбіт/с. Trillium також включений у високопродуктивну платформу AI Hypercomputer, призначену для ресурсномістких ШІ-завдань.

Спеціальне програмне забезпечення Multislice дає змогу Trillium масштабувати продуктивність практично лінійно, особливо в завданнях ШІ-навчання. Кластери на базі TPU v6e можуть досягати 91 Ефлопс у ШІ-обчисленнях, що більш ніж у чотири рази перевищує аналогічні системи на TPU v5p. Пікова продуктивність TPU v6e становить 918 Тфлопс для операцій з використанням BF16 і 1836 Топс для INT8.

Популярні Пости