На этой неделе лидеры Силиконовой долины, Вашингтона, Уолл-стрит и других регионов оказались в замешательстве из-за неожиданного успеха китайской AI-компании DeepSeek. Эта компания недавно выпустила AI-модели, сравнимые с моделями OpenAI, и, по-видимому, за гораздо меньшую цену. Это произошло несмотря на американскую политику, направленную на замедление прогресса Китая. В результате многие аналитики сделали вывод, что успех DeepSeek подорвал основополагающие убеждения американской AI-индустрии, и что компании, ведущие эту гонку, такие как Nvidia и Microsoft, не так ценны и технологически продвинуты, как считалось ранее. Технические акции обрушились на сотни миллиардов долларов.
Однако AI-ученые возражают, утверждая, что многие из этих страхов преувеличены. Они говорят, что, хотя DeepSeek действительно представляет собой значительный шаг вперед в эффективности AI, это не является крупным технологическим прорывом и что американская AI-индустрия всё еще обладает ключевыми преимуществами перед Китаем.
«Это не скачок вперед в возможностях AI», — говорит Леннарт Хайм, исследователь AI в RAND. «Я думаю, что рынок просто ошибается».
Заявление: DeepSeek значительно дешевле других моделей.
В декабре DeepSeek сообщила, что стоимость обучения её модели V3 составила всего 6 миллионов долларов. Эта цифра выглядела удивительно низкой по сравнению с более чем 100 миллионами долларов, которые OpenAI потратила на обучение GPT-4, или «несколькими десятками миллионов», которые Anthropic потратила на обучение последней версии своей модели Claude.
Низкая стоимость DeepSeek стала возможной благодаря значительным достижениям в эффективности, которые исследователи компании описали в документе, сопровождающем выпуск их модели. Но были ли эти достижения настолько большими, чтобы стать неожиданными? Хайм утверждает, что нет: алгоритмы машинного обучения всегда становились дешевле со временем. Даро Амодей, генеральный директор AI-компании Anthropic, сделал тот же вывод в своём эссе, написав, что хотя достижения в эффективности исследователей DeepSeek были впечатляющими, они не представляли собой «уникального прорыва или чего-то, что фундаментально изменяет экономику LLM». «Это ожидаемая точка на непрерывной кривой снижения стоимости», написал он. «Отличие в том, что впервые эту ожидаемую экономию продемонстрировала китайская компания».
Кроме того, возможно, DeepSeek не вполне честна в своих расчетах расходов. После заявлений о низкой стоимости обучения её моделей в отчетах сообщалось, что у компании есть запас из 50 000 чипов Nvidia, о которых она не могла говорить из-за американского экспортного контроля. Эти чипы стоили бы в районе 1 миллиарда долларов.
Однако правда заключается в том, что новая модель R1 от DeepSeek для пользователей гораздо дешевле, чем конкурентная модель OpenAI o1: её плата за доступ к модели примерно в 30 раз ниже (2,19 доллара за миллион «токенов» по сравнению с 60 долларами). Это вызвало опасения у некоторых инвесторов о надвигающейся ценовой войне в американской AI-индустрии, что может уменьшить ожидаемую прибыль от инвестиций и усложнить американским компаниям задачу по сбору средств, необходимых для строительства новых дата-центров для своих AI-моделей.
Оливер Стивенсон, заместитель директора по AI и политике в области новых технологий Федерации американских учёных, говорит, что не стоит делать выводы из этой цены. «Хотя DeepSeek действительно добилась повышения эффективности, их ценообразование может быть просто стратегией привлечения внимания», — говорит он. «Они могут нести убытки на этапе вывода модели».
В понедельник, 27 января, DeepSeek сообщила, что подверглась кибератаке и ограничила новые регистрации для пользователей за пределами Китая.
Заявление: DeepSeek показывает, что экспортный контроль не работает.
Когда в 2022 году гонка технологий AI накалилась, администрация Байдена решила закрыть доступ Китая к передовым чипам, особенно к H100 компании Nvidia. В результате Nvidia разработала менее совершенный чип H800 для легальной продажи китайским компаниям. Позже администрация Байдена запретила продажу и этих чипов в Китай. Но к тому времени, когда эти дополнительные ограничения вступили в силу год спустя, китайские компании успели накопить тысячи H800, что обернулось внушительным доходом для Nvidia.
DeepSeek заявила, что её модель V3 была разработана с использованием H800, который хорошо подходит для вида моделей, создаваемых компанией. Но несмотря на этот успех, эксперты считают, что контроль за чипами мог остановить Китай от дальнейшего прогресса. «В условиях, когда у Китая был бы доступ к большему объёму вычислений, мы могли бы ожидать еще больше прорывов», — говорит Скотт Сингер, приглашённый учёный программы технологий и международных отношений в Carnegie Endowment for International Peace. «Экспортный контроль может работать, но это не значит, что Китай не сможет создавать всё более мощные модели».
Далее поддерживать темп с передовыми моделями DeepSeek и другим китайским компаниям будет всё сложнее из-за ограничений по чипам. Хотя OpenAI использовала около 10 000 H100 для обучения GPT-4, следующее поколение моделей, вероятно, потребует в десять или даже сто раз больше. Даже если Китай сможет построить мощные модели благодаря достижениям в эффективности, экспортный контроль, вероятно, будет сдерживать их способность развертывать свои модели для широкой аудитории. «Если мы думаем, что в будущем AI-агент может выполнять чью-то работу, то количество цифровых работников у вас будет зависеть от того, сколько у вас вычислительных мощностей», — говорит Хайм. «Если модель AI не может широко использоваться, это ограничивает её воздействие на мир».
Заявление: DeepSeek показывает, что высококлассные чипы не так ценны, как считалось ранее.
По мере роста ажиотажа вокруг DeepSeek многие инвесторы пришли к выводу, что её достижения угрожают доминированию Nvidia в области AI, и начали избавляться от акций компании, которая в январе была самой ценной в мире. В результате акции Nvidia упали на 17%, потеряв почти 600 миллиардов долларов в стоимости, исходя из предположения, что их чипы будут менее ценными в новых условиях.
Однако многие эксперты в области AI утверждают, что это падение стоимости акций Nvidia было результатом иррационального поведения рынка. Многие из них поспешили скупить акции на падающем рынке, что привело к возврату части потерянной стоимости. Прорывы в эффективности вычислительной мощности, по их словам, исторически приводили к росту спроса на чипы, а не к его снижению. Когда акции технологий падали, глава Microsoft Сатья Наделла разместил ссылку на страницу Википедии о парадоксе Джевонса. Этот парадокс, впервые отмеченный в XIX веке, назван в честь экономиста, который заметил, что по мере того как сжигание угля становилось более эффективным, люди фактически стали использовать больше угля, так как он стал дешевле и более доступен.
Эксперты считают, что аналогичная динамика развернется в гонке за создание продвинутых AI. «Мы видим впечатляющий технический прорыв, построенный на основе продуктов Nvidia, которые становятся лучше по мере того, как вы используете больше этих продуктов», — говорит Стивенсон. «Это не ситуация, в которой вы столкнётесь с уменьшением спроса на продукцию Nvidia».
Через два дня после своего вступления в должность президент Дональд Трамп объявил о совместной государственной и частной инициативе стоимостью в 500 миллиардов долларов для создания AI-дата-центров, исходя из идеи, что масштаб имеет решающее значение для создания самых мощных AI-систем. Однако рост DeepSeek заставил многих усомниться в этой стратегии, посчитав её поспешной или бесполезной.
Некоторые учёные в области AI с этим не согласны. «DeepSeek показывает, что AI становится лучше и не останавливвается», — говорит Хайм. «Это имеет огромные экономические последствия, если AI будет использоваться, и поэтому такие инвестиции имеют смысл».
Американское руководство сыграло на сигнале, что успех DeepSeek заставил их быть ещё более амбициозными в создании AI-инфраструктуры, чтобы сохранить лидерство страны. Трамп на пресс-конференции в понедельник заявил, что DeepSeek «должна стать сигналом для наших отраслей, что нам нужно быть сосредоточенными на конкурентной борьбе за победу».
Однако Стивенсон предупреждает, что эта масштабная стройка дата-центров может сопровождаться огромным числом негативных внешних факторов. Дата-центры часто потребляют огромное количество электроэнергии, что приводит к значительным увеличениям местных счетов за электричество и угрожает водоснабжению, и добавляет: «Мы столкнёмся с множеством проблем при проведении этой инфраструктурной программы».
Источник: Time