«Обновленный DeepSeek V3.1: Эффективность и скорость против бенчмарков»

Популярный китайский ИИ DeepSeek обновился до версии V3.1 и теперь доступен на официальном сайте, в мобильных приложениях, а также для скачивания с платформы Huggingface. Обновление прошло незаметно: информацию о модели и официальные результаты тестов еще не опубликовали. Тем не менее, уже имеются многочисленные независимые тесты, свидетельствующие о том, что разработчики сосредоточились на оптимизации модели, оставив достижения в бенчмарках на будущее.

Главное изменение заключается в том, что отдельные модели “быстрой” V3 и “рассуждающей” R1 теперь не существуют — V3.1 функционирует в обоих режимах, а также включает встроенный веб-поиск, что снижает затраты на ее обслуживание. Однако это касается только веб-версии и приложений; в API все равно присутствуют две модели.

Неофициальные тесты демонстрируют результаты V3.1 без рассуждений на уровне 71.6% в Aider Polyglot, что даже превышает показатели рассуждающей R1 (71.4%) и Claude Opus 4 (70.7%). При этом стоимость задачи составляет всего 1 доллар, в то время как R1 стоит 4.8 доллара, а Opus 4 — 68 долларов. Эффективность, видимо, станет «визитной карточкой» этой модели: пользователи отмечают снижение расходов токенов и ускоренное время ответа в режиме рассуждений.

Однако имеются и негативные отзывы. Некоторые утверждают, что V3.1 стала более угодливой, часто ошибается, иногда переключается на китайский язык и менее подходит для творческих задач.

P.S. Поддержать меня можно, подписавшись на канал “сбежавшая нейросеть“, где я делюсь своими мыслями об ИИ с творческой точки зрения.