Китайская компания DeepSeek недавно анонсировала свою новую ИИ-модель открытого типа — DeepSeek-R1, которая уже успела привлечь внимание специалистов в области искусственного интеллекта. По заявлению разработчиков, R1 не только соперничает с моделью OpenAI o1 по показателям производительности, но и предлагает значительные преимущества в плане стоимости и архитектуры.
Превосходство в производительности
DeepSeek-R1 продемонстрировала впечатляющие результаты на ряде сложных бенчмарков. На математическом тесте AIME 2024 модель достигла 79,8% по показателю Pass@1, что немного превысило результат o1 — 79,2%. Особенно выделяется R1 на бенчмарке MATH-500, где она набрала 97,3%, обойдя o1 с его 96,4%. В области программирования R1 набрала 96,3% среди участников на платформе Codeforces, что говорит о высоком уровне её навыков.
Кроме того, модель показала хорошие результаты в общих знаниях: 90,8% на MMLU и 71,5% на GPQA Diamond. Эти достижения подчеркивают универсальность R1 и её сильные способности в области логического вывода.
Технические характеристики
Что касается технических характеристик, DeepSeek-R1 использует архитектуру Mixture-of-Experts (MoE), которая включает в себя 671 миллиард параметров. Однако для каждого прохода активируется только 37 миллиардов параметров, что позволяет эффективно обрабатывать данные без потери производительности. Модель поддерживает контекстное окно длиной до 128K токенов, что делает позволяет ей работать с большими объемами информации.
R1 была обучена на основе масштабирования и использует методы Chain of Thought (CoT) для улучшения своих выводов. Обучение проводилось на примерно 14.8 триллионах токенов с затратами вычислительных ресурсов в 2.664 миллиона GPU-часов.
Сравнение стоимости: R1 против o1
Одним из ключевых преимуществ DeepSeek-R1 является её стоимость. Базовые тарифы на использование R1 в среднем в 27.4 раза ниже по сравнению с o1. Однако реальная экономия становится еще более заметной при учете того, что R1 генерирует примерно в 6.22 раза больше токенов для вывода по сравнению с o1.
Кроме того, благодаря механизму кэширования R1 может снизить затраты на повторяющиеся запросы до 90%. Для кэшированных вводов стоимость составляет всего $0.14 за миллион токенов по сравнению с $7.5 за тот же объем у o1.
Разработка и ограничения
Несмотря на свои достижения, DeepSeek-R1 не лишена недостатков. Модель пока испытывает трудностями при выполнении сложных логических задач и подвержена цензуре в соответствии с требованиями государственных органов Китая. Это означает, что ответы на политически чувствительные вопросы могут быть ограничены при выводе или отредактированы в соответствии с "основными социалистическими ценностями".
Также DeepSeek предлагает более компактные версии своей модели R1 с количеством параметров от 1.5 до 70 миллиардов, которые оптимизированы и даже уже скомпилированы для работы на менее мощных устройствах.