Как оптимизированные стратегии масштабирования раскрывают неочевидные способности к рассуждению в малых языковых моделях, обгоняя их крупные аналоги

Согласно новому исследованию из Шанхайской лаборатории искусственного интеллекта, компактные языковые модели (SLM) могут превзойти крупные языковые модели (LLM) в задачах логического рассуждения. Авторы исследования демонстрируют, что при применении соответствующих инструментов и подходов, SLM с 1 миллиардом параметров способна обойти LLM с 405 миллиардами параметров в сложных математических испытаниях.

Способность SLM успешно справляться с трудными задачами логического мышления может быть полезной для бизнеса, стремящегося открыть новые возможности применения этих моделей в различных сферах и приложениях.

Процесс масштабирования в процессе тестирования (TTS) подразумевает добавление дополнительных вычислительных мощностей для LLM во время логического вывода, что позволяет улучшить их эффективность в выполнении разных задач. Крупные модели логической обработки, такие как OpenAI o1 и DeepSeek-R1, применяют «внутреннее TTS», обучаясь «думать» медленно и формируя длинные цепочки размышлений CoT.

Альтернативой является использование «внешнего TTS», который увеличивает производительность модели снаружи. Этот метод позволяет адаптировать уже существующие модели для решения задач рассуждения без необходимости их дальнейшей настройки. Обычно внешняя настройка TTS включает в себя «модель политики», которая генерирует ответы, и «модель вознаграждения процесса» (PRM), оценивающую эти ответы. Эти два компонента объединяются при помощи методов выборки или поиска.

Простейший вариант — «лучший из N», когда модель политики предлагает несколько решений, а PRM выбирает один или несколько лучших для итогового ответа. Более сложные методы внешнего TTS используют алгоритмы поиска. В «поиске по лучу» модель разбивает ответ на этапы, выбирая несколько возможных вариантов и оценив их с помощью PRM, прежде чем выбрать подходящие для генерации следующего шага. В стратегии «поиск с несколькими вариантами ответов» (DVTS) модель вырабатывает множество ответов, создавая разнообразный набор перед объединением в окончательный ответ.

Выбор наиболее эффективной стратегии преобразования текста в речь зависит от различных факторов. Авторы исследования проанализировали, как различные модели политики и программные решения влияют на действенность методов TTS.

Исследования показали, что эффективность сильно зависит от используемой политики и моделей PRM. Например, для небольших моделей политики методы, основанные на поиске, оказываются эффективнее подхода «лучший из N». В то же время для крупных моделей политики данный подход оказывается более результативным из-за их лучших логических возможностей, что снижает необходимость в модели вознаграждения для каждого шага рассуждений.

Также было отмечено, что оптимальная стратегия TTS варьируется в зависимости от сложности задачи. Например, для небольших моделей, имеющих менее 7 миллиардов параметров, метод «лучший из N» лучше подходит для простых задач, а метод «поиска» — для более сложных. Для моделей с параметрами от 7 до 32 миллиардов методы «разнообразного поиска по дереву» показывают хорошие результаты для простых и средних задач, в то время как «поиск по лучу» — для сложных. Однако для очень крупных моделей (с 72 миллиардами параметров и выше) решение «лучший из N» оказывается оптимальным во всех случаях.

На основе этих выводов разработчики могут создавать эффективные стратегии TTS, которые принимают во внимание модель политики, PRM и сложность задачи, чтобы максимально эффективно использовать вычислительные ресурсы для решения логических задач.

Например, исследователи убедились, что модель Llama-3.2-3B, использующая оптимальные вычислительные стратегии TTS, превосходит Llama-3.1-405B в тестах MATH-500 и AIME24, что демонстрирует, что SLM могут обойти модель, которая в 135 раз больше, используя наилучшие стратегии TTS.

Другие эксперименты показали, что модель Qwen2.5 с 500 миллионами параметров способна превзойти GPT-4o при внедрении правильной стратегии синтеза речи, ориентированной на вычисления. При таком же подходе модель DeepSeek-R1 с 1,5 миллиарда параметров превзошла o1-preview и o1-mini в тестах MATH-500 и AIME24.

Учитывая затраты на обучение и вывод, результаты свидетельствуют о том, что при применении оптимизированных стратегий TTS, SLM могут демонстрировать более впечатляющие результаты, потребляя при этом на 100-1000 раз меньше операций с плавающей запятой.

Данные исследования подтверждают, что TTS с оптимизированными вычислениями значительно усиливает логические способности языковых моделей. Тем не менее, с увеличением размера моделей эффективность TTS начинает спадать.

«Это говорит о том, что эффективность TTS непосредственно связана с логическими способностями модели политики, — отмечают исследователи. — В частности, для моделей с слабыми логическими навыками применение масштабирования во времени тестирования ведет к значительным улучшениям, тогда как для моделей со сильными логическими способностями выигрыша значительно меньше».

Исследование подчеркивает, что SLM могут существенно превзойти более крупные модели, используя подходы TTS, рассчитанные на эффективные вычисления. Хотя результаты сосредоточены на математических тестах, исследователи планируют провести аналогичную работу для других задач, требующих логического мышления, таких как программирование и химия.

Источник