Бенчмарки Llama-4: Как недостоверные данные ставят под сомнение будущее AI-индустрии

Опубликовано: April 8, 2025

Всего пару дней назад команда Llama сделала анонс о запуске трех новых нейронных сетей в рамках Llama-4: высокоскоростной Scout с учетом 10 миллионов токенов, медленный Maverick, который может обрабатывать 1 миллион токенов, но имеет 128 экспертов в своем арсенале, и масштабный Behemoth, использованный в качестве преподавателя для первых двух.

10 миллионов токенов и без особых затрат — это, мягко говоря, очень много. Можно представить, как разработчики Gemini Pro в Сан-Франциско начинают задумываться о смене профессии на сантехников, электриков или ассенизаторов.

Однако, спустя день, выясняется, что это не так.

Оказывается, результаты тестирования Llama-4 оказались простой ложью. На самом деле, ни о каком контексте в 10 миллионов токенов не может быть и речи. Уже на уровне 120 тысяч токенов производительность стремится к нулю.

Важно отметить, что нашелся информатор, который поделился интересным постом на форуме на китайском языке. С появлением Claude Sonnet 3.7, все мы стали своего рода лингвистами, поэтому вот краткое содержание:

Сотрудник Meta GenAI решил покинуть компанию, осознав, что бенчмарки Llama-4 — это обман. Они не достигли статуса SOTA, а руководство предложило добавить данные из предтренинга в тестовые наборы для формирования более правдоподобных графиков. Более того, высшее руководство объявило, что если до конца апреля они не станут лидерами в отрасли, то последствия будут серьезными.

Автор утечки работает в академической среде, где репутация имеет огромное значение. Особенно в Китае, где стартапы строятся на доверии. Поэтому он первым решил уйти с “тонущей лодки”. В своей заявлении об увольнении он потребовал запретить использование своей фамилии в документации на GitHub.

Вскоре за ним последовал вице-президент по AI — по сути, продакт-менеджер данного продукта.

Это напомнило мне о моем собственном увольнении из игровой компании: когда я предоставил заявление, директор просто улыбнулся и не задал никаких вопросов. Через две недели он тоже уволился. Мы иногда встречаемся, когда я бываю в Новосибирске.

С хорошей стороны: уровень в 120 тысяч токенов — это неплохой результат. Это стоит того, чтобы им гордиться. Ну и пусть это не Gemini. У всех бывают моменты, когда они не могут достичь уровня Gemini.

С плохой стороны: в администрации запрещенной в России Meta работают люди, которые не понимают, что делают. Одна вещь — устанавливать нереальные сроки, как Бендер в “Футураме”, а совсем другое — поверить в эти сроки и строить на их основе стратегию.

Учитывая, что именно эти люди управляют мировой стратегией социальных сетей, дела обстоят не лучшим образом. Мы движемся в бездну. Как и последние десять тысяч лет.

**Выводы**: врать нужно уметь. Если не умеешь — лучше не пытайся. Учитесь у Сэма Гангстерса и Фродо Сумкинса из OpenAI, их лжи не отличить от правды, а иногда она полностью заменяет ее в сознании аудитории. И в одном месте подмешали данные, и в другом — но есть нюанс.

Давайте закончим на позитивной ноте, ведь в каждой статье должна быть пасхалка. Пытаясь выяснить, в каком эпизоде “Футурамы” Бендер рассказывает свою знаменитую шутку, я протестировал оба инструмента: Claude Sonnet и Perplexity.

Вот что показал Claude:

А вот что нашел Perplexity:

К сожалению, Perplexity часто критикуют за недостаточную глубину анализа и слабое использование возможностей больших моделей. Однако ее секрет в коротких запросах, иначе она бы не выживала на бурном рынке с низкими ценами. В своей нише “замена Гугла и Яндекса” она достигает неплохих результатов.

Для тех, кто дошел до конца: используйте инструменты по назначению. Тот, кто взял молоток, видит только гвозди. А тот, кто работает с Claude Sonnet 3.7, может думать о написании идеальной энциклопедической статьи, хотя реальная задача может быть просто — заколоть гвоздь. Perplexity отлично справляется с теми задачами, для которых она изначально была задумана. Напротив, если вы попытаетесь решить математическую задачу через Perplexity, могут возникнуть проблемы.

Если вам интересен подобный контент, вы можете подписаться на мой телеграм-канал: 1red2black. Меня зовут Олег Чирухин, я занимаюсь разработкой бесплатного форка VSCode с AI-ассистентом, а в свободное время (см. “работаете ли вы после работы”) работаю над секретным некоммерческим AI-стартапом Anarchic. В телеграме я пишу о разработке IDE для программистов и новостях нейросетей. Нас уже почти 800 человек в канале и около 300 в чате. Присоединяйтесь к нам!