Встречайте GPT-4.5: Новая эра от OpenAI с улучшенным эмоциональным интеллектом и расширенными возможностями!

Всего несколько недель назад я упоминал о том, что Сэм Альтман сообщил о предстоящем релизе GPT-4.5. Вчера появились первые слухи, что запуск модели может состояться в скором времени. И вот, это свершилось — только что был сделан официальный анонс.

Полный текст блога: https://openai.com/index/introducing-gpt-4-5/

GPT-4.5 является самой крупной моделью от OpenAI, разработанной для широкого круга применений. К числу её основных характеристик относятся улучшенное обучение, повышение «эмоциональной интуиции» и лучшее понимание человеческих запросов.

Эта модель прошла дополнительные этапы обучения и проверок на безопасность, используя методики, аналогичные тем, что применялись для GPT-4, включая SFT (супервизированное тонкое обучение) и RLHF (обучение с подкреплением на основе человеческой обратной связи).

Разработчики уверяют, что новые версии сохраняют прежние уровни рискованности, аналогичные предыдущим крупным моделям, но в то же время расширяют пределы применения в области письменной работы, программирования и решения практических задач.

GPT-4.5 объединяет традиционное обширное обучение на неразмеченных данных и «рассуждения по цепочке» — подход, при котором модель изучает промежуточные шаги логического мышления. Усиленная «ассоциативная» способность снижает вероятность галлюцинаций.

Расширенная база данных включает публичные источники, частные соглашения по предоставлению данных и специализированные внутренние наборы. Все это проходит многоуровневую фильтрацию для улучшения качества и исключения нежелательного контента. Новые методики элайнмента помогают лучше ориентировать GPT-4.5 на реальные потребности пользователей, включая тщательность ответов, аккуратный стиль общения и адекватное восприятие «эмоционально насыщенных» запросов.

Одна из особенно важных характеристик новой модели — это акцент на эмоциональном интеллекте и распознавании настроений собеседника. GPT-4.5 демонстрирует более высокий уровень «эмоционального интеллекта» и умеет определять, когда нужно подстегнуть обсуждение, а когда предоставить пользователю более детальную информацию.

Во всех типах запросов пользователи значительно чаще выбирали ответы от GPT-4.5, чем от GPT-4.

Контекстное окно в GPT-4.5 составляет 128 тысяч токенов. Хотя это меньше, чем максимумы, представленные на рынке (1M/2M токенов), этого вполне достаточно для большинства задач, особенно учитывая, что многие модели с длинными контекстами не всегда работают эффективно, периодически забывая о “середине” контекста.

Улучшена способность к многозадачности и ведению диалога: GPT-4.5 лучше справляется с письменно-творческими задачами, обеспечивая более гармоничную интеграцию идей. Результаты в бенчмарках по безопасности (умение избегать токсичных ответов и соблюдать политику) близки к GPT-4, а иногда и превосходят его.

На многоязычном тесте MMLU GPT-4.5 показывает небольшое улучшение точности по сравнению с GPT-4, причем это заметно особенно в языках с меньшими наборами данных (таких как хинди и бенгальский).

GPT-4.5 демонстрирует более низкий уровень галлюцинаций и неверных утверждений, что подтверждается тестами:

SimpleQA: точность ответов возросла с 38% до 62% (по сравнению с GPT-4).

PersonQA: точность ответов выросла с 28% (GPT-4) до 78% (GPT-4.5).

Снижение уровня галлюцинаций: процент снизился с 52% до 19% по сравнению с предыдущими моделями.

Методология METR определяет задачи, которые могут быть надежно выполнены агентами LLM. Их новая оценка “временного горизонта” указывает на продолжительность задач, которые агент LLM может выполнить с надежностью 50%. Для GPT-4.5 этот показатель составляет примерно 30 минут. Дополнительная информация будет опубликована в скором времени.

В SWE-Bench – бенчмарке, который оценивает, насколько модель справляется с различными задачами разработки, GPT-4.5 получает 35% до смягчения и 38% после, что на 2–7% выше, чем у GPT-4, и на 30% ниже, чем у Deep Research.

В бенчмарке агентских задач GPT-4.5 набирает 40%, что на 38 процентов ниже, чем у Deep Research, но на 6% выше, чем у GPT-4.

MLE-Bench, бенчмарк, который интересен тем, что оценивает способности модели выполнять задачи в области машинного обучения, также показывает, что GPT-4.5 дает результаты на уровне всех reasoning-моделей, несмотря на то, что сама она не является reasoning-моделью.

SWE-Lancer, новый бенчмарк от OpenAI, оценивающий, насколько модель может решать реальные фрилансерские задачи в разработке, также показывает отличные результаты для GPT-4.5, который превосходит все предыдущие модели, кроме Deep Research, успешно решая 20% задач IC SWE и 44% задач SWE Manager, что немного выше, чем у o1.

Хотя GPT-4.5 не является самой передовой моделью, она представляет собой самую крупную LLM от OpenAI, улучшившую вычислительную эффективность по сравнению с GPT-4 более чем в 10 раз. Несмотря на то, что GPT-4.5 демонстрирует расширенные знания, улучшенные навыки письма и более тщательную персонализацию по сравнению с предшествующими версиями, она не предоставляет принципиально новых возможностей в сравнении с предыдущими моделями, ориентированными на логическое мышление. Кроме того, качество ответов иногда уступает моделям o1, o3-mini и deep research. Тем не менее, стоит учесть, что GPT-4.5 обеспечивает мгновенные ответы, тогда как o1/o3 могут требовать минуты, а deep research – часы.

Модель станет доступна для разработчиков всех уровней через API (что весьма приятно, так как другие модели o1-o3 доступны лишь для достаточно опытных пользователей API OpenAI).

Доступ для пользователей Pro-подписки станет возможен уже сегодня, а для подписчиков Plus – на следующей неделе.

Цена модели составляет $75 за 1M входных токенов и $150 за миллион токенов на выходе. Это значительно выше, чем у аналогичных моделей на момент их релиза, да и текущие цены (например, GPT-4o сейчас в десятки раз дешевле). Скорее всего, цена будет постепенно снижаться, как это происходило с предыдущими версиями.

UPD 1: Появилось сравнение цен с другими популярными моделями. GPT-4.5 стоит на 74900% дороже Gemini Flash 2.0.

UPD 2: Cursor заявили, что уже интегрировали GPT-4.5, и он вполне хорош для отдельных типов задач.

UPD 3: Опубликованы результаты независимого бенчмарка Aider polyglot с задачами по программированию:

65% Sonnet 3.7, 32k токенов размышлений (SOTA)

60% Sonnet 3.7, без размышлений

48% DeepSeek V3

45% GPT 4.5 Preview

27% ChatGPT-4o

23% GPT-4o

UPD 4:

P.S. В своём телеграм-канале я заставляю ИИ писать мне код (возможно, теперь протестирую для этого GPT-4.5), делюсь свежими новостями технологий, а также публикациями, которые появляются раньше всего. Регулярно провожу глубокий анализ по отрасли и всем событиям, рассказываю, как создавать собственных ИИ-агентов и приложения с использованием ИИ и много других интересных материалов. Присоединяйтесь!