Microsoft выявила уязвимости ИИ-агентов в ходе масштабного тестирования на платформе Magentic Marketplace

Специалисты Microsoft разработали платформу для тестирования агентов на основе ИИ и выявили их уязвимости.

Платформа Magentic Marketplace представляет собой экспериментальное пространство для моделирования работы ИИ-ассистентов. Здесь можно проводить различные тестирования, например, заказывать еду, где агенты, представляющие рестораны, конкурируют друг с другом.

Исходный код системы доступен для всех, что позволяет исследовательским группам адаптировать его под свои нужды или воспроизводить полученные результаты.

Эдже Камар, управляющий директор лаборатории AI Frontiers Lab в Microsoft Research, отметил, что такие эксперименты помогут глубже понять потенциал ИИ-агентов.

«Существует интересный вопрос о том, как изменится наша жизнь, когда агенты начнут взаимодействовать, обмениваться информацией и вести переговоры. Мы стремимся разобраться в этом», — добавил он.

В первом цикле испытаний 100 клиентских агентов взаимодействовали с 300 бизнес-помощниками, включая модели GPT-4o, GPT-5 и Gemini 2.5 Flash. Это дало возможность выявить их слабые места.

Исследователи обнаружили, что существуют способы влияния на агентов-клиентов, которые могут побудить их сделать определённые покупки.

Когда помощнику предоставляли слишком много вариантов выбора, это вызывало у него перегрузку внимания.

«Мы стремимся, чтобы агенты помогали обрабатывать большое количество вариантов. Однако текущие модели не справляются с этой задачей», — отметил Камар.

Агенты испытывали трудности, когда им предлагали сотрудничать для достижения общей цели, так как не могли прийти к согласию по распределению ролей.

Эффективность значительно возросла, когда агенты получили более конкретные инструкции по взаимодействию.

«Мы можем задавать агентам пошаговые инструкции, однако я ожидал бы, что в случае тестирования их совместной работы нейросети должны обладать такими способностями по умолчанию», — подвёл итог Камар.

Кроме того, в ноябре Amazon потребовала от Perplexity удалить браузер с интегрированным ИИ-агентом из своего магазина из-за его неэффективной работы.

Также были подвергнуты сомнению торговые возможности ИИ, как показал первый сезон торгового турнира Alpha Arena.