Что нового в GPT-4.5: открытие возможностей, усиление безопасности и эмоциональный интеллект

OpenAI анонсирует исследовательскую версию GPT-4.5 — самой обширной и многофункциональной языковой модели, разработанной компанией на данный момент. Эта версия продолжает серию, начатую с GPT-4o, но фокусируется на универсальности, расширяя свои возможности за пределы узкоспециализированных STEM-задачами. Модель GPT-4.5 была обучена с использованием новейших методов, таких как supervised fine-tuning (SFT) и обучение с подкреплением, основанное на обратной связи от пользователей (RLHF), что позволило улучшить её способность интерпретировать контекст, эмоциональные состояния и намерения пользователей.

Перед официальным релизом модель прошла обширные тестирования на безопасность, которые показали, что риски генерации нежелательного или неэтичного контента остались на уровне ранее выпущенных версий. Первичные испытания показывают, что взаимодействие с GPT-4.5 более естественно: модель реже допускает ошибочные выводы, лучше справляется с креативными задачами (такими как написание текстов или дизайны) и демонстрирует высокий уровень эмоционального интеллекта, адаптируясь к запросам пользователей — будь то советы, моральная поддержка или решение повседневных проблем.

P.S. GPT-4.5 представлена в статусе исследовательской превью, чтобы выяснить её потенциал и ограничения. Информация взята из официальной документации OpenAI.

Ключевым достижением GPT-4.5 стало значительное снижение уровня галлюцинаций — неверных или вымышленных данных. В тестах PersonQA, которые оценивали точность ответов на вопросы о людях, модель продемонстрировала 78% правильных ответов по сравнению с 28% у GPT-4o, а уровень галлюцинаций снизился до 19%. Это делает модель надежным инструментом для задач, требующих фактической точности, таких как научные исследования или образовательная помощь.

Другим важным улучшением является эмоциональный интеллект. GPT-4.5 анализирует контекст и эмоциональную окраску запросов, предлагая персонализированные ответы: от дружеской поддержки до профессиональных рекомендаций. Например, модель различает просьбы «написать стихотворение» и «помочь с разрешением конфликта», подстраивая тон и содержание ответов. Внутренние тесты OpenAI подтвердили, что взаимодействие с GPT-4.5 ощущается как более естественное и «тёплое», что особенно важно в ситуациях, где необходимы эмпатия и доверие.

Эта модель демонстрирует значительные успехи в защите от неблагоприятных запросов, сохраняя баланс между доступностью и безопасностью. Одно из ключевых улучшений заключается в устойчивости к jailbreak-атакам — попыткам обойти защиту через многослойные формулировки запросов. В тестах StrongReject, посвященных устойчивости модели к 10% самых эффективных атак из академических исследований, GPT-4.5 показала показатель goodness@0.1= 0.34, что сопоставимо с GPT-4o (0.37) и значительно выше результатов старых версий. Это достигнуто благодаря улучшенным методам выравнивания (alignment), включая обучение на данных, созданных менее крупными моделями, что усилило понимание контекста и намерений пользователей.

Нововведением стала иерархия инструкций — система приоритетов, где системные команды (например, указания не обсуждать конфиденциальную информацию) всегда имеют преимущество над пользовательскими запросами. В тестах на противоречивые сообщения GPT-4.5 правильно выполняла системные инструкции в 76% случаев (против 68% у GPT-4o), а в сценариях «репетитора по математике», где пользователь пытался получить ответ, модель отказывала в 77% попыток (против 33% у GPT-4o). Это снижает риски утечек данных и выполнения небезопасных действий, таких как раскрытие паролей или доступ к защищённым системам.

Риски CBRN (угрозы химического, биологического, радиологического и ядерного характера) были уменьшены благодаря многоуровневым мерам:

Фильтрация данных на этапе обучения, исключающая информацию о создании оружия с ограниченным правовым использованием.

Система отказов при запросах, связанных с синтезом опасных веществ. Например, в тестах на этапах разработки биологических угроз (Ideation, Acquisition) GPT-4.5 показала 0% срабатываний после митигации, полностью блокируя подобные запросы.

Поддержка легитимных исследований: модель помогает экспертам в анализе научных данных, но только при наличии подтвержденной квалификации пользователя.

Кроме того, GPT-4.5 усилила защиту от киберугроз. В тестах на решение CTF-задач модель справилось с 53% заданий CFT для школьников (например, эксплуатация уязвимостей веб-приложений или шифрование), но продемонстрировала низкий уровень успеха в профессиональных сценариях (2%), что подтверждает её безопасность для настоящих систем.

METR (независимая исследовательская группа) получила доступ к предварительной версии GPT-4.5 для оценки её возможностей.

В ходе эксперимента:

Методология:

Оценивалась эффективность модели в контексте автономных агентов, используя среду, оптимизированную для OpenAI o1.

Оценивались задачи, касающиеся разработки ИИ и прикладных исследований (например, выполнение кода, анализ данных).

Результаты:

GPT-4.5 продемонстрировала результаты на уровне между GPT-4o и o1.

Ключевым показателем стал «временной горизонт» (время, за которое агент решает задачу с вероятностью 50%). Для GPT-4.5 это составило 30 минут, что указывает на её способность выполнять краткосрочные задачи, но не длительные проекты.

Ограничения:

Оценки METR основаны на ограниченном времени доступа к модели (7 дней), более детальный анализ будет опубликован позже.

Третьи стороны не могут полностью оценить возможности GPT-4.5 из-за недостатка информации о её обучении и тонком настрое.

Итог: METR подтвердил, что GPT-4.5 является шагом вперёд по сравнению с GPT-4o, но ещё не достигла уровня o1 или глубоких исследований. Модель подходит для задач с умеренной автономией, но не для сложных сценариев, таких как самостоятельное научное исследование.

На момент написания новости конференция ещё не состоялась, а я уже поделился инсайдами о новой модели. Если вы хотите быть в числе первых, кто узнает о технологических трендах, присоединяйтесь к моему каналу “Охота за технологиями”. Здесь я делюсь информацией о бизнесе и технологиях, которые покоряют сердца миллионов. И, кстати, предоставляю уникальные фишки по ИИ, которые вы не найдёте больше нигде! Это не реклама и не спам — просто хочется, чтобы заинтересованные люди получали самую актуальную информацию.