Почему все сходят с ума из-за DeepSeek?

Почему все сходят с ума из-за DeepSeek? Почему все сходят с ума из-за DeepSeek?

Через месяц после запуска модели DeepSeek финансовый мир начал беспокоиться — рыночная капитализация Nvidia потеряла более полутриллиона долларов, что сопоставимо с «одним Стрейтгейтом». И не только Nvidia: также пострадали акции Tesla, Google, Amazon и Microsoft.

Два быстродействующих AI-модели DeepSeek сравнялись с лучшими американскими аналогами, по словам Александра Ванга, гендиректора Scale AI. DeepSeek, похоже, использует более дешевые методы обучения: один из её моделей был обучен за 5,6 миллионов долларов, хотя другие компании тратят сотни миллионов, а то и миллиарды. Это нарушает наши представления о стоимости AI и обещает неожиданные последствия для индустрии.

Реклама

Всё это произошло за несколько недель: на Рождество DeepSeek выпустила модель v3, наделавшую шуму, а недавно представила model R1, которую Марк Андрессен назвал одним из самых впечатляющих прорывов. По мнению Дэвида Сакса, ответственного за AI и криптовалюты при президенте Трампе, такие достижения показывают, что гонка AI будет очень конкурентной.

Успехи DeepSeek ставят под вопрос, действительно ли необходимо тратить миллиарды долларов на вычисления, чтобы выиграть гонку в области искусственного интеллекта. Долгое время считалось, что доминировать будут технологические гиганты с большими финансовыми возможностями, но теперь стало ясно, что они, возможно, просто тратили деньги впустую.

Даже если критики правы, и DeepSeek не раскрывает правду о своих возможностях в части оборудования, сообщество с открытым исходным кодом скоро выяснит правду. Leandro von Werra из Hugging Face сообщил, что его команда работает над воспроизведением и публикацией модели R1.

Компания DeepSeek, возглавляемая генеральным директором Лянем Венфэном, была основана инженерами из Чжэцзянского университета и стремится к «фундаментальным изменениям в архитектуре и алгоритмах», чтобы построить общую искусственную интеллигенцию (AGI), и заявляет о своей прибыльности.

Лянь начал закупку тысяч GPUs от Nvidia в 2021 году и в 2023 году основал DeepSeek с целями изучения сущности AGI. Их подход включает использование существующих моделей с открытым исходным кодом, таких как Llama от Meta, и использование синтетических данных для обучения.

Оптимизация стала для DeepSeek ключом к успеху, позволяя снизить затраты на обучение и применить более умные методы обработки данных, такие как Multi-Head Latent Attention. Это позволяет моделям DeepSeek достигать такого же уровня производительности, как у GPT-4, но с меньшими затратами.

DeepSeek продемонстрировала, что значительные средства тратить не обязательно, чтобы доминировать на рынке AI. Это открывает дорогу небольшим стартапам, которые могут успешно конкурировать с крупными компаниями.

Резкое удешевление модели может не снизить спрос на GPUs, так как более сильные модели только увеличивают этот спрос. Важной задачей становится оптимизация использования ограниченных ресурсов для достижения более высоких результатов.

В то время как Китай демонстрирует, что инновации через оптимизацию возможны даже в условиях ограниченного доступа к вычислительным мощностям, США делают ставку на масштабные проекты. Это создание конкуренции и дополнительного давления на компании, вовлеченные в гонку AI.

Некоторые сомневаются в достижениях DeepSeek, предполагая, что они сформированы без использования премиальных GPUs. Это, по мнению критиков, делает достижения DeepSeek более чем спорными.

Пока остаются сомнения о возможностях AGI, очевидно одно: DeepSeek демонстрирует, что деньги не гарантия успеха, и вдохновляет на переосмысление подходов в индустрии AI.

Источник: TheVerge

Добавить комментарий

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Будьте в курсе самых важных событий

Нажимая кнопку "Подписаться", вы подтверждаете, что ознакомились с нашими условиями и соглашаетесь с ними. Политика конфиденциальности и Условия использования
Реклама