Введение
В прошлом месяце компания DeepSeek удивила всех своим заявлением о том, что её модель искусственного интеллекта потребляет примерно одну десятую часть вычислительной мощности по сравнению с моделью Llama 3.1 от Meta. Это открытие перевернуло существующую картину мира о том, сколько энергии и ресурсов потребуется для разработки искусственного интеллекта. На первый взгляд, это заявление может иметь огромные последствия для экологического воздействия ИИ.
Стремление к снижению энергопотребления
Технологические гиганты спешат строить огромные дата-центры для ИИ, некоторые из которых планируют использовать столько же электроэнергии, сколько маленькие города. Производство такого количества электроэнергии создает загрязнение, вызывая опасения, что физическая инфраструктура, поддерживающая новые генеративные инструменты ИИ, может усугубить изменение климата и ухудшить качество воздуха. Снижение энергопотребления, необходимого для обучения и работы генеративных моделей ИИ, могло бы облегчить часть этого стресса.
Вклад DeepSeek в экологию ИИ
Пока еще рано судить, будет ли DeepSeek революционной с точки зрения экологического следа ИИ. Многое будет зависеть от того, как другие крупные игроки отреагируют на прорывы китайского стартапа, особенно в контексте планов по строительству новых дата-центров. Как отмечает Мадалса Сингх, постдокторант Университета Калифорнии в Санта-Барбаре, изучающий энергетические системы, «это показывает, что ИИ не обязательно должен быть энергетическим хищником».
Технологические достижения DeepSeek
Волна обсуждений вокруг DeepSeek началась с выпуска его V3 модели в декабре, которая стоила $5.6 млн на финальную тренировку и заняла 2.78 млн GPU часов на более старых чипах Nvidia H800, согласно техническому отчету компании. Для сравнения, модель Llama 3.1 405B от Meta — несмотря на использование более новых, эффективных чипов H100 — потребовала около 30.8 млн GPU часов на обучение. DeepSeek представила модель R1 на прошлой неделе, что вызвало позитивные отзывы от Марка Андриссена, венчурного капиталиста, назвавшего ее «великолепным подарком миру».
Технические нюансы моделей
DeepSeek утверждает, что смогла сократить энергопотребление благодаря более эффективным методам обучения. В техническом плане используется стратегия без вспомогательных потерь. Мадалса Сингх поясняет, что это заключается в более избирательном подходе к обучению частей модели. Экономия энергии достигается и на этапе вывода, через использование кэширования ключевых значений и компрессии. Такие подходы открывают большие возможности для устойчивого планирования инфраструктуры.
Вопросы доверия и открытости
DeepSeek преимущественно открывает свои модели для общего доступа, за исключением данных для обучения. Это может ускорить обмен знаниями между исследователями и открыть двери для меньших участников рынка. Однако, несмотря на оптимизм, некоторые эксперты, такие как Карлос Торрес Диас из Rystad Energy, скептически относятся к заявленным данным об энергопотреблении.
Двоякий эффект энергоэффективности
Есть также и другой аспект, который стоит учитывать: с повышением эффективности технологии её использование может увеличиваться, что, в свою очередь, может увеличить общее потребление ресурсов. Филип Крейн из Университета Иллинойса задается вопросом, не приведет ли снижение энергопотребления ИИ к массовому увеличению числа провайдеров данных.
Заключение
Технологические инновации DeepSeek могут иметь значительные последствия для глобального перехода к устойчивому использованию энергии. Однако в то время как многие страны продолжают зависеть от традиционных источников энергии, остаётся важным оценивать источник электроэнергии. Возможность сокращения потребления энергии в ИИ является сильным аргументом в пользу экологически безопасного будущего, но только время покажет, насколько значительными будут эти изменения в практическом применении.
Источник: TheVerge