GPT-4o сохранила лидерство, обойдя чат-версию GPT-5 в новом рейтинге Lmarena

Сайт Lmarena обновил свой рейтинг языковых моделей, в котором отдельно представлены различные версии GPT-5. Этот рейтинг представляет интерес, так как формируется с участием пользователей, которые задают вопросы и получают два анонимных ответа от различных моделей, выбирая лучший из них.

Давайте подробнее рассмотрим составленный рейтинг. GPT-5-high — это версия модели, обладающая высокой способностью к рассуждениям и работающая на максимальных настройках. Она сохраняет первое место, лишь немного опережая Gemini 2.5 Pro от Google. Следует отметить, что отдельной строкой в результатах не указана GPT-5-medium — версия с меньшими вычислительными ресурсами для рассуждений, доступная в наиболее востребованной подписке ChatGPT Plus. Однако иные бенчмарки показывают, что производительность medium-версии лишь немного уступает высокоуровневой.

GPT-5-Chat — это версия без режима рассуждений, которая в основном используется как чат-бот или для быстрых ответов на простые вопросы. Данная модель задумывалась как соперник GPT-4o, но, оказавшись на практике, уступила ей. Если говорить о распределении по категориям, GPT-5-chat выделяется в математике и выполнении инструкций, однако GPT-4o обходит её в многоэтапных диалогах, написании текстов, программировании и обработке объёмных запросов. Также стоит отметить значительное отставание GPT-5-chat в ответах на русском языке: результаты составляют 1441 очко для GPT-4o и лишь 1418 для GPT-5-chat.

Несколько дней после запуска GPT-5, компания OpenAI, оказавшаяся под давлением пользователей, решила вернуть GPT-4o. 16 августа были также введены обновлённые настройки «персоны» для GPT-5-chat, призванные сделать модель более отзывчивой.

P.S. Поддержать меня можно подпиской на канал “сбежавшая нейросеть“, где я делюсь творческими аспектами ИИ.