Модель o3 превосходит GPT-5 в сложных офисных задачах, согласно новому бенчмарку OdysseyBench

Разработанный специалистами из Microsoft и Эдинбургского университета, OdysseyBench представляет собой более продвинутый инструмент, нежели традиционные «атомарные задачи», позволяя оценивать, как ИИ-модели справляются с длительными сценариями, затрагивающими несколько дней.

Бенчмарк включает 602 задания, охватывающие такие платформы, как Word, Excel, PDF, электронная почта и календарь. Они делятся на 300 реалистичных задач из OfficeBench (OdysseyBench+) и 302 новые, более сложные сценария (OdysseyBench‑Neo). В обоих наборах задачам моделей требуется извлекать информацию из многодневной переписки, планировать многоэтапные действия и действовать согласованно в различных офисных приложениях.

Основная сложность заключается в диалоговых заданиях, связанных с офисными процессами, которые растягиваются во времени. Как в OdysseyBench+, так и в OdysseyBench‑Neo, модель o3 consistently превосходит GPT 5.

На наборе OdysseyBench‑Neo, содержащем наиболее сложные вручную составленные задания, o3 демонстрирует результат 61,26% против 55,96% у GPT 5 и 57,62% у GPT 5 Chat. Значительная разница проявляется в тех случаях, когда необходимо использовать сразу три приложения: o3 достигает 59,06%, а GPT 5 лишь 53,80%.

Аналогичные результаты наблюдаются и на OdysseyBench+: o3 получает 56,2%, обгоняя GPT 5 (54,0%) и GPT 5 Chat (40,3%). Особенно заметна разница в задачах, где требуется синхронизация работы двух-трех приложений, поскольку здесь критически важны контекст и планирование.

Интересно, что в OdysseyBench‑Neo GPT 5 Chat обходит GPT 5. Это может быть связано с тем, что Neo больше ориентирован на диалоговую помощь — сильную сторону чат-версии. В то время как на OdysseyBench+ большее количество фрагментарных и менее разговорных задач, в которых GPT 5 лучше извлекает необходимые данные из разрозненных вводов.

В статье не уточняются параметры мышления у GPT 5, такие как временные ограничения или настройки агента; также не рассматривалась более совершенная версия GPT 5 Pro.

Эти выводы особенно актуальны на фоне работы OpenAI над агентов, способных мыслить в течение часов и дней для генерации свежих идей и автоматизации исследований в таких областях, как медицина и безопасность ИИ. OdysseyBench может сыграть важную роль в установлении стандартов для таких «долгосрочных» систем.

При внимательном рассмотрении возникают повторяющиеся проблемы: агенты часто пропускают ключевые файлы, забывают о важных шагов или неправильно выбирают инструменты. В некоторых случаях они пытались создать PDF, не подготовив исходный текст в Word, или не извлекали информацию из PDF перед тем, как приступали к анализу документа.

Наиболее много ошибок возникает в задачах, связанных с созданием или редактированием файлов DOCX и XLSX, требующих тщательной многоступенчатой координации — именно здесь модели используют алгоритмы неэффективно.

Исследователи делают общий вывод: современным ИИ-агентам по-прежнему сложно выполнять точное, многоуровневое планирование, охватывающее различные инструменты, сроки и контексты. OdysseyBench и HOMERAGENTS, представленные на GitHub, а подробности настройки бенчмарка и подсказки для оценки можно найти в соответствующей статье.

Хотите быть в курсе ключевых новостей из мира ИИ? Подписывайтесь на наш телеграм: BotHub AI News.