Китайский ИИ DeepSeek опять бросает вызов OpenAI и конкурентам

Китайский стартап DeepSeek представил модель V3-0324, улучшившую логику и программирование, бросая вызов OpenAI. Узнайте подробности в нашей статье.

26.03.2025

113

Автор: Silas Pierce

Китайская компания DeepSeek, специализирующаяся на искусственном интеллекте, сделала новый шаг в конкурентной борьбе с американским гигантом OpenAI. 24 марта 2025 года стартап представил обновленную версию своей большой языковой модели — DeepSeek-V3-0324. По заявлениям разработчиков, новинка значительно превосходит предшественника в задачах, связанных с логическим мышлением и программированием.

Китайский ИИ DeepSeek опять бросает вызов OpenAI и конкурентам

Прорыв в производительности

DeepSeek-V3-0324, названная в честь даты релиза, демонстрирует впечатляющие результаты. Модель, содержащая 685 миллиардов параметров, была обучена на 14,8 триллиона токенов — просто огромном массиве данных. Тесты показывают, что она обходит многие открытые модели, включая Llama 3.1, и приближается к закрытым системам вроде GPT-4o от OpenAI. Особенно заметен прогресс в решении математических задач и генерации кода. Например, на бенчмарке AIME (American Invitational Mathematics Examination) новинка набрала 59,4 балла против 39,6 у предыдущей версии.

Модель	AIME (баллы)	LiveCodeBench (баллы)
DeepSeek-V3-0324	59,4	49,2
DeepSeek-V3	39,6	39,2
Llama 3.1 405B	54,8	47,5
GPT-4o	61,2	52,1

Интересно, что DeepSeek удалось достичь таких результатов, несмотря на ограничения, наложенные США на экспорт передовых чипов в Китай. Компания использовала менее мощные Nvidia H800, оптимизировав процесс обучения за счет инженерных решений, таких как смешанная точность FP8 и перекрытие вычислений с коммуникациями между GPU. Это позволило сократить затраты до 5,58 миллиона долларов — суммы, кажущейся скромной на фоне сотен миллионов, которые тратят западные конкуренты.

Открытость и доступность

DeepSeek-V3-0324 распространяется под лицензией MIT, что делает ее доступной для разработчиков по всему миру. Модель уже размещена на платформе Hugging Face, а также интегрирована в сервисы вроде OpenRouter и Hyperbolic Labs. Более того, она способна работать на потребительском оборудовании, таком как Mac Studio с чипом M3 Ultra, выдавая более 20 токенов в секунду.

Западные эксперты уже называют обновление DeepSeek очередным прорывом. «Это не просто улучшение, а демонстрация того, как ограничения могут стимулировать инновации», — отметил исследователь из Nvidia Джим Фан. Релиз вызвал ажиотаж: за 48 часов модель возглавила рейтинг трендов на Hugging Face. Аналитики предполагают, что DeepSeek-V3-0324 может стать базой для грядущей DeepSeek-R2 — специализированной модели для задач рассуждения, ожидаемой в апреле.