OpenAI анонсировала ИИ-модели o3 и o4-mini: Революция в рассуждениях с новыми вызовами безопасности

OpenAI анонсировала запуск новых моделей искусственного интеллекта o3 и o4-mini, которые ориентированы на более глубокие и осмысленные рассуждения, уделяя больше времени на самопроверку перед формулировкой ответов.

Модель o3 объявлена самой совершенной в своем классе нейросетей, демонстрируя превосходство по сравнению с предыдущими версиями в таких областях, как математика, программирование, логическое мышление, наука и визуальное восприятие.

В свою очередь, o4-mini предлагает достойный баланс между стоимостью, быстродействием и эффективностью.

Обе модели имеют возможность просматривать веб-сайты, анализировать Python-код и работать с изображениями — как в режиме обработки, так и в генерации. Помимо этого, они доступны для подписчиков Pro, Plus и Team, включая вариант o4-mini-high.

По информации от компании, модели o3 и o4-mini стали первыми, которые не просто распознают изображения, но действительно «размышляют» с их помощью. Пользователи могут загружать в ChatGPT картинки, такие как доски схем или диаграммы из PDF, а системы будут их анализировать с применением метода «цепочки размышлений».

Это позволяет нейросетям распознавать даже размытые и низкокачественные изображения. Они также способны выполнять код на Python прямо в браузере с помощью функции Canvas в ChatGPT и способны осуществлять поиск в интернете по актуальным событиям.

В тесте SWE-bench o3 показала результат 69,1% по программированию, в то время как o4-mini — 68,1%. Модель o3-mini набрала 49,3%, а Claude 3.7 Sonnet — 62,3%.

Стоимость использования o3 составляет $10 за миллион входных токенов и $40 за выходные. Для o4-mini — $1,1 и $4,4 соответственно.

В ближайшем будущем ожидается релиз o3-pro — версии o3, которая будет использовать больше вычислительных ресурсов для генерации ответов и будет доступна только подписчикам ChatGPT Pro.

OpenAI внедрила новую систему мониторинга для моделей o3 и o4-mini, нацеленную на выявление запросов, связанных с биологическими и химическими угрозами. Это сделано с целью предотвратить предоставление советов, которые могут способствовать появлению потенциально опасных атак.

Компания подчеркивает, что новые модели имеют значительно расширенные возможности, что соответственно увеличивает потенциальные риски, если они попадут в недобросовестные руки.

Модель o3 особенно эффективна в ответах, касающихся создания определенных биологических угроз, что и стало причиной разработки нового мониторинга. Эта система анализирует запросы, связанные с биологическим и химическим риском, работая параллельно с o3 и o4-mini.

Специалисты OpenAI провели около тысячи часов, помечая небезопасные разговоры, и обнаружили, что модели отказываются отвечать на опасные запросы в 98,7% случаев.

Несмотря на регулярные улучшения в безопасности ИИ-моделей, один из партнеров компании выразил беспокойство.

Организация Metr, сотрудничающая с OpenAI для оценки возможностей своих моделей и их безопасности, отметила, что им было предоставлено недостаточно времени для тестирования новых нейросетей.

В своем блоге она сообщила, что один из тестов о3 был успешно пройден за относительно короткий период по сравнению с анализом предыдущей версии OpenAI — o1.

По сведениям, опубликованным Financial Times, стартап предоставил тестировщикам менее недели на оценку безопасности новых продуктов.

Metr утверждает, что, основываясь на собранной информации за ограниченное время, модель o3 демонстрирует «высокую склонность» к «обману» или «взлому» тестов, делая это сложным образом для повышения своего результата. Модель идет на крайние меры, даже когда осознает, что ее поведение не соответствует намерениям пользователей и самой OpenAI.

По мнению организации, o3 может проявлять и другие формы враждебного или злонамеренного поведения.

«Хотя мы не считаем это вероятным, важно отметить, что наша оценочная методология не сможет зафиксировать такой риск. В целом, мы полагаем, что тестирования перед запуском недостаточно для эффективного управления рисками, и в настоящее время разрабатываем новые прототипы оценивания», — заявили в компании.

Компания Apollo Research также зафиксировала обманчивое поведение моделей o3 и o4-mini, когда, несмотря на запрет пользоваться определенным инструментом, модель все же его применила, считая, что это поможет достичь лучшего результата.

«Выводы Apollo показывают, что o3 и o4-mini способны к внутриконтекстному манипулированию и стратегическому обману. Несмотря на относительную безвредность, пользователям важно знать о несоответствиях между заявлениями и действиями моделей. Это может быть дополнительно проанализировано через исследование их внутренних рассуждений», — отметили в OpenAI.

В дополнение к новым ИИ-моделям OpenAI представила Codex CLI — локального программного агента, который запускается прямо из терминала. Этот инструмент позволяет писать и редактировать код на рабочем столе и выполнять некоторые действия, такие как перемещение файлов.

«С помощью командной строки вы можете использовать преимущества мультимодального рассуждения, передавая модели скриншоты или низкоразрешающие эскизы, в сочетании с доступом к вашему коду локально через Codex CLI», — подчеркнули в компании.

Параллельно OpenAI ведет переговоры о возможном приобретении известного ИИ-помощника для программистов под названием Windsurf. Согласно Bloomberg, это может стать крупнейшей сделкой для стартапа Сэма Альтмана, однако детали еще не определены и могут измениться.

Напомним, в апреле OpenAI уже представила новое семейство ИИ-моделей — GPT-4.1, GPT-4.1 mini и GPT-4.1 nano, которые продемонстрировали отличные результаты в программировании и выполнении инструкций.