Китайский ИИ DeepSeek опять бросает вызов OpenAI и конкурентам
Китайский стартап DeepSeek представил модель V3-0324, улучшившую логику и программирование, бросая вызов OpenAI. Узнайте подробности в нашей статье.
Китайская компания DeepSeek, специализирующаяся на искусственном интеллекте, сделала новый шаг в конкурентной борьбе с американским гигантом OpenAI. 24 марта 2025 года стартап представил обновленную версию своей большой языковой модели — DeepSeek-V3-0324. По заявлениям разработчиков, новинка значительно превосходит предшественника в задачах, связанных с логическим мышлением и программированием.
Китайский ИИ DeepSeek опять бросает вызов OpenAI и конкурентам
Прорыв в производительности
DeepSeek-V3-0324, названная в честь даты релиза, демонстрирует впечатляющие результаты. Модель, содержащая 685 миллиардов параметров, была обучена на 14,8 триллиона токенов — просто огромном массиве данных. Тесты показывают, что она обходит многие открытые модели, включая Llama 3.1, и приближается к закрытым системам вроде GPT-4o от OpenAI. Особенно заметен прогресс в решении математических задач и генерации кода. Например, на бенчмарке AIME (American Invitational Mathematics Examination) новинка набрала 59,4 балла против 39,6 у предыдущей версии.
Модель | AIME (баллы) | LiveCodeBench (баллы) |
---|---|---|
DeepSeek-V3-0324 | 59,4 | 49,2 |
DeepSeek-V3 | 39,6 | 39,2 |
Llama 3.1 405B | 54,8 | 47,5 |
GPT-4o | 61,2 | 52,1 |
Интересно, что DeepSeek удалось достичь таких результатов, несмотря на ограничения, наложенные США на экспорт передовых чипов в Китай. Компания использовала менее мощные Nvidia H800, оптимизировав процесс обучения за счет инженерных решений, таких как смешанная точность FP8 и перекрытие вычислений с коммуникациями между GPU. Это позволило сократить затраты до 5,58 миллиона долларов — суммы, кажущейся скромной на фоне сотен миллионов, которые тратят западные конкуренты.
Открытость и доступность
DeepSeek-V3-0324 распространяется под лицензией MIT, что делает ее доступной для разработчиков по всему миру. Модель уже размещена на платформе Hugging Face, а также интегрирована в сервисы вроде OpenRouter и Hyperbolic Labs. Более того, она способна работать на потребительском оборудовании, таком как Mac Studio с чипом M3 Ultra, выдавая более 20 токенов в секунду.
Западные эксперты уже называют обновление DeepSeek очередным прорывом. «Это не просто улучшение, а демонстрация того, как ограничения могут стимулировать инновации», — отметил исследователь из Nvidia Джим Фан. Релиз вызвал ажиотаж: за 48 часов модель возглавила рейтинг трендов на Hugging Face. Аналитики предполагают, что DeepSeek-V3-0324 может стать базой для грядущей DeepSeek-R2 — специализированной модели для задач рассуждения, ожидаемой в апреле.