Современный ИИ не справляется с викториями игрового прошлого: почему классические шутеры стали непреодолимым испытанием для нейросетей

Даже наиболее усовершенствованные модели искусственного интеллекта сталкиваются с трудностями при игре в классический шутер от первого лица Doom. Такие выводы сделали эксперты после оценки нейросетей в рамках нового бенчмарка под названием VideoGameBench.

Цель теста заключалась в том, чтобы оценить, насколько современные нейросети способны играть и добиваться победы в 20 известных видеоиграх, используя исключительно информацию, отображаемую на экране.

«Современные VLM-модели испытывают серьезные сложности в видеоиграх из-за значительной задержки вывода. Когда агент захватывает экран и обращается к VLM за рекомендацией о следующем действии, к моменту получения ответа ситуация в игре может существенно измениться, и предложенное действие уже станет несоответствующим», — отметили исследователи.

В рамках тестирования использовались классические игры 1990-х годов, поскольку их простые визуальные эффекты и разнообразные способы ввода, такие как мышь, клавиатура и геймпад, позволяют проверить у моделей способности пространственного мышления и «зрения».

VideoGameBench был создан ученым и исследователем в области ИИ Алексом Чжаном. В бенчмарке представлены такие игры, как Warcraft II, Age of Empires, Prince of Persia и другие.

Модель Sonnet 3.7 продемонстрировала наилучшие результаты в Doom, обнаружив синюю комнату.

Исследователи отметили, что задержка реакции является основной проблемой в шутерах от первого лица. В условиях динамично меняющейся среды враг может переместиться или даже атаковать игрока прежде, чем тот успеет отреагировать.

Кроме нарушений в восприятии игрового окружения, модели также сталкивались с трудностями при выполнении базовых действий.

«Мы неоднократно наблюдали ситуации, когда агент не мог оценить, как его действия, например, движение вправо, будут отражаться на экране. Наиболее частой ошибкой среди всех протестированных нами моделей стало неспособность эффективно управлять мышью в таких играх, как Civilization и Warcraft II, где необходима высокая точность и скорость движений», — добавили они.

Также не все модели способны правильно воспринимать игровые механики, когда отсутствуют ясные инструкции по необходимым действиям.

Напомним, в феврале ИИ-стартап Anthropic анонсировал свою «самую интеллектуальную модель» Claude 3.7 Sonnet, которая успешно прошла игру Pokemon.