QwQ-32B от Alibaba: Новый игрок в мире ИИ, способный соперничать с DeepSeek на фоне революции в моделях рассуждений

Команда Qwen, являющаяся частью китайского гиганта электронной коммерции Alibaba, представила новое дополнение к своему семейству моделей большого языка (LLM) под названием QwQ-32B. Эта модель предлагает 32 миллиарда параметров и была разработана для улучшения производительности при решении сложных задач с применением метода обучения с подкреплением (RL).

QwQ-32B доступен с открытыми весами на платформах Hugging Face и ModelScope под лицензией Apache 2.0. Это позволяет как коммерческое, так и исследовательское использование, что дает возможность компаниям мгновенно интегрировать модель в свои продукты и приложения, даже если они являются платными для клиентов.

Отметим, что предшествующая версия QwQ была впервые продемонстрирована Alibaba в ноябре 2024 года как открытая модель рассуждений, созданная для конкуренции с o1-preview от OpenAI.

Первоначальная версия QwQ, представленная в ноябре 2024 года (также названная «QwQ»), имела те же 32 миллиарда параметров и контекст длиной 32 000 токенов. Alibaba подчеркнула, что их модель превосходит o1-preview в математических тестах, таких как AIME и MATH, а также в задачах научного рассуждения, например, GPQA.

Несмотря на свои сильные стороны, ранние версии QwQ сталкивались с трудностями в задачах программирования, таких как LiveCodeBench, где модели OpenAI показывали лучшие результаты. Кроме того, как и многие новые модели рассуждений, QwQ сталкивался с проблемами смешивания языков и периодическими логическими ошибками.

Тем не менее, решение Alibaba выпустить свою модель под лицензией Apache 2.0 предоставило разработчикам и предприятиям свободу для адаптации и коммерциализации, что выделяло её на фоне приватных моделей, таких как o1 от OpenAI.

С момента выхода QwQ, рынок ИИ значительно изменился. Ограничения традиционных LLM стали более очевидными, поскольку явление убывающей отдачи в производительности укрепило интерес к новым моделям рассуждений (LRM). Эти системы применяют рассуждения во время вывода и саморефлексию для повышения точности. Примеры таких моделей включают серии o3 от OpenAI и успешную DeepSeek-R1 от китайской лаборатории DeepSeek, основанной на гонконгской фирме количественного анализа High-Flyer Capital Management.

Согласно новому отчету компании SimilarWeb, занимающейся веб-аналитикой, с момента запуска R1 в январе 2024 года DeepSeek заметно поднялся в рейтингах, став самым посещаемым ресурсом по моделям ИИ, следом за OpenAI.

Новая модель от Alibaba — QwQ-32B — расширяет эти достижения, сочетая RL и структурированный самоанализ, что делает её серьезным конкурентом в области ИИ, ориентированного на рассуждение.

Также была увеличена длина контекста новой модели до 131 000 токенов, что сопоставимо с 128 000 токенов моделей OpenAI и других аналогов, хотя длина контекста Google Gemini 2.0 все еще превосходит их и составляет 2 миллиона токенов. Напоминаем, что длина контекста обозначает количество токенов, которые LLM может обрабатывать за одно взаимодействие: 131 000 токенов эквивалентны чуть менее 300 страницам текста.

Традиционные модели, обученные по принципу продиктованных инструкций, часто испытывают трудности с решением сложных задач на рассуждение, однако исследования команды Qwen показывают, что RL может значительно повысить эффективность моделей в таких задачах.

QwQ-32B продолжает развивать эту концепцию, внедряя многоступенчатый подход к обучению с подкреплением, чтобы улучшить математические рассуждения, навыки кодирования и общее решение проблем.

Модель была сравнена с ведущими конкурентами, такими как DeepSeek-R1, o1-mini и DeepSeek-R1-Distilled-Qwen-32B, и показала конкурентоспособные результаты, несмотря на снижение количества параметров по сравнению с некоторыми из этих моделей.

Например, в то время как DeepSeek-R1 оперирует с 671 миллиардом параметров (из которых активны 37 миллиардов), QwQ-32B показывает сопоставимую производительность при значительно меньших требованиях — обычно нуждаясь в 24 ГБ видеопамяти на GPU (на Nvidia H100 — 80 ГБ), в то время как для работы полной версии DeepSeek R1 требуется более 1500 ГБ видеопамяти (с использованием 16 графических процессоров Nvidia A100), что подчеркивает эффективность метода Qwen.

Процесс обучения с подкреплением для QwQ-32B был разработан в два этапа:

Упор на математику и кодирование: модель обучалась с использованием проверяющих точности для математических задач и серверов выполнения кода для программирования. Этот подход обеспечивал качество генерируемых ответов перед их подкреплением.

Улучшение общих навыков: на втором этапе обучения модель прошла обзор, основываясь на вознаграждениях от более общих моделей и принципов верификации. Это повысило следование инструкциям, выравнивание с человеческими предпочтениями и рассуждения моделями без ущерба для математических и программных способностей.

С моделью QwQ-32B команда Qwen стремится сделать RL ключевым элементом для создания ИИ следующего поколения, показывая, что масштабирование может привести к разработке мощных и эффективных систем рассуждений.

Источник