Meta представила свой первый ИИ-ускоритель для вывода, разработанный для улучшения моделей ранжирования и рекомендаций, которые являются ключевыми компонентами Facebook и Instagram.
Первая версия чипа MTIA
Чип Meta Training and Inference Accelerator (MTIA), созданный для обработки вывода, но не обучения, был обновлен в апреле. Обновление удвоило вычислительную мощность и пропускную способность памяти по сравнению с первоначальной версией.
Презентация на конференции Hot Chips
На недавнем симпозиуме Hot Chips Meta представила свои планы по следующему поколению чипа MTIA. Компания признала, что использование графических процессоров для рекомендационных систем имеет свои сложности. Например, максимальная производительность не всегда превращается в эффективную производительность, масштабные развертывания требуют много ресурсов, а ограничения по емкости усложняются растущим спросом на генеративный ИИ.
Основные цели развития следующего поколения MTIA
Meta определила следующие цели для разработки нового поколения MTIA:
- Повышение производительности на единицу полной стоимости владения (TCO) и на ватт по сравнению с предыдущим поколением.
- Эффективная обработка моделей для различных сервисов Meta.
- Увеличение эффективности разработчиков для быстрого массивного развертывания.
Нововведения и улучшения
Обновленный чип MTIA получил значительное увеличение производительности:
- GEN-O-GEN увеличивает производительность GEMM до 177 TFLOPS при BF16.
- Аппаратная квантильная обработка тензоров для точности, сопоставимой с FP32.
- Оптимизация поддержки режима PyTorch Eager Mode, что сокращает время запуска заданий до менее 1 микросекунды и замену заданий до менее 0.5 микросекунды.
- Оптимизация TBE ускоряет загрузку и предварительную выборку индексов встраивания, достигая в 2-3 раза более быстрых времен работы по сравнению с предыдущей версией.
Чип MTIA построен на процессоре TSMC с 5-нанометровым техпроцессом, работает на частоте 1.35 ГГц и имеет 2.35 миллиарда транзисторов. Он предлагает производительность в 354 TOPS при INT8 и 177 TOPS при FP16 GEMM, используя 128GB LPDDR5 памяти с пропускной способностью 204.8GB/с при TDP 90 ватт.
Архитектура и расширение памяти
Элементы обработки построены на ядрах RISC-V с встроенными скалярными и векторными расширениями, а модуль ускорителя Meta включает два центральных процессора (CPU). На Hot Chips 2024 была представлена функция расширения памяти, связанная с переключателем PCIe и центральными процессорами. Meta кратко упомянула, что это возможность добавления памяти в шасси, но она пока не используется.
В итоге, Meta стремится к значительным улучшениям производительности и эффективности следующего поколения чипа MTIA, что должно существенно повлиять на работу рекомендационных систем в их продуктах, таких как Facebook и Instagram.
Источник: TechRadar