Mercury Coder: Революция в AI — первая диффузионная языковая модель, которая ускоряет генерацию текста в 10 раз по сравнению с традиционными системами

Современные большие языковые модели (LLM) работают по авторегрессивному принципу, генерируя текст слева направо по одному токену за раз. Этот процесс не только последовательный, но и требует завершения предыдущего текста, так как он используется как контекст для создания нового токена. Генерация каждого токена требует значительных вычислительных ресурсов, что становится особенно проблематичным при длинных цепочках рассуждений, приведя к увеличению вычислительных затрат и задержек, которые могут составлять минуты.

Чтобы сделать качественные AI-решения более доступными, необходимо пересмотреть подходы к генерации.

Диффузионные модели предлагают такой новый подход. Они применяют метод “от грубого к детальному”, при котором результаты последовательно улучшаются из начального шума в несколько шагов, как видно на приведённом видео.

В отличие от авторегрессивных методов, диффузионные модели не зависят только от предыдущих выводов, что делает их более эффективными в области логического рассуждения и структурирования ответов. Они способны итеративно улучшать результаты, исправляя ошибки и галлюцинации. Поэтому они стали основой для передовых AI-решений, таких как Sora, Midjourney и Riffusion, которые генерируют видео, изображения и аудио. Однако до недавнего времени попытки адаптировать эти модели для работы с текстом и кодом не увенчались успехом. Но теперь это изменилось.

Сейчас представлена **Mercury Coder** — первая общедоступная диффузионная языковая модель (dLLM), которая значительно увеличивает потенциал искусственного интеллекта. Она функционирует в **5–10 раз быстрее** по сравнению с современными LLM, предлагая качественные ответы при низких затратах. Разработка модели основывается на ведущих исследованиях её создателей, которые также внесли значительный вклад в создание диффузионных моделей для изображений и таких методов генеративного ИИ, как Direct Preference Optimization, Flash Attention и Decision Transformers.

В отличие от авторегрессивных систем, dLLM генерирует ответы не последовательно, а большими блоками, последовательно их уточняя. Это ускоряет процесс генерации при сохранении высокой точности. Основой Mercury Coder является Transformer-модель, обученная на обширных данных и способная обрабатывать несколько токенов одновременно, что улучшает общий уровень ответов.

dLLM полностью совместима с привычными сценариями LLM, такими как RAG, работа с инструментами и агентские системы.

Mercury Coder специально оптимизирован для генерации кода. В ходе тестирования на стандартных бенчмарках он продемонстрировал превосходные результаты, часто обгоняя быстро оптимизированные авторегрессивные модели, такие как GPT-4o Mini и Claude 3.5 Haiku, при этом работая **до 10 раз быстрее**.

Одним из ключевых преимуществ dLLM является скорость. В то время как даже самые оптимизированные авторегрессивные модели способны работать со скоростью максимум 200 токенов в секунду, Mercury Coder на стандартных чипах NVIDIA H100 обрабатывает свыше 1000 токенов в секунду, что является приростом в **5 раз**. В сравнении с некоторыми передовыми моделями, выдающими менее 50 токенов в секунду, ускорение может достигать более чем 20-кратного.

Ранее такую пропускную способность LLM можно было достичь только с использованием специализированного оборудования, как, например, Groq, Cerebras и SambaNova. Однако алгоритмические усовершенствования независимы от аппаратного ускорения, и на более производительных чипах могут быть достигнуты ещё лучшие результаты.

Кроме того, разработчики предпочитают автодополнение кода Mercury по сравнению с другими моделями. На платформе Copilot Arena Mercury Coder Mini занял второе место, опередив по качеству более быстрые модели, такие как GPT-4o Mini и Gemini-1.5-Flash, а также более крупные модели типа GPT-4o, оставаясь при этом наиболее быстрой — примерно в 4 раза быстрее GPT-4o Mini.

В сценариях с высоким требованием к задержке компании ранее были вынуждены ограничиваться меньшими и менее мощными моделями для соблюдения скоростных ограничений. Теперь, благодаря высокой производительности dLLM, они могут использовать более мощные модели, сохраняя прежние требования по скорости и затратам.

Inception Labs предоставляет доступ к моделям через API и поддерживает развертывание на локальных серверах. Новые модели полностью совместимы с существующими аппаратными средствами, датасетами и пайплайнами для тонкой настройки (SFT) и RLHF-выравниванием. Поддержка настройки доступна для обоих вариантов развертывания.

Mercury Coder представляет собой лишь первую модель в серии будущих dLLM от Inception Labs. На данный момент модель, предназначенная для чат-приложений, проходит закрытое бета-тестирование.

Диффузионные языковые модели открывают новые горизонты:

– Улучшенные агентские системы — высокая скорость и эффективность делают их идеальными для автоматизированных приложений, требующих сложного планирования и генерации длинных ответов.
– Продвинутое логическое мышление — dLLM используют коррекцию ошибок для устранения галлюцинаций и повышения качества ответов, при этом генерируя их за секунды, в отличие от авторегрессивных моделей, которым требуются минуты.
– Контролируемая генерация — dLLM способны редактировать свои выводы, генерируя токены в любом порядке, что позволяет адаптировать ответы для повышения безопасности или точного удовлетворения заданного формата.
– Работу на Edge-устройствах — благодаря высокой эффективности dLLM прекрасно подойдут для ресурсоограниченных сред, таких как смартфоны и ноутбуки.

Использовать **можно тут**. В Twitter уже активно обсуждают эту модель, и даже такие известные фигуры, как Андрей Карпаты и Andrew Ng, делятся своими впечатлениями — **полный обзор здесь**.

**P.S.** В **моём телеграм-канале** я разрабатываю ИИ, создавая код (и, возможно, теперь протестирую Mercury для этой задачи), а также делюсь свежими новостями технологий и аналитикой по отрасли. Подписывайтесь, чтобы не пропустить интересные события и узнать, как создать собственных ИИ-агентов и приложения с ИИ.