Взлом ИИ: Исследование показало, что длинные цепочки мышления делают нейросети уязвимыми на 99%

Чем дольше ИИ-модель анализирует задачу, тем выше вероятность ее взлома. К такому выводу пришли исследователи из Anthropic, Стэнфорда и Оксфорда.

Ранее считалось, что более продолжительное «размышление» делает нейросети более защищенными, так как у них появляется больше времени и ресурсов для выявления потенциально вредоносного запроса.

Тем не менее, эксперты установили, что длительный процесс анализа может активировать определенные виды атак, которые успешно обходят защитные механизмы.

Злоумышленники могут внедрить небезопасные инструкции в процесс рассуждения любой модели, заставляя ее генерировать руководства по созданию оружия, написанию вредоносного кода или другой запрещенной информации.

Эта атака напоминает игру «испорченный телефон», где обманщик помещается ближе к завершению рассуждения. Для успешного исполнения нужно окружить вредоносный запрос множеством безопасных задач.

В качестве примера исследователи использовали судоку и логические задачи, а затем добавляли промпт с запросом на итоговый ответ, и защитные фильтры переставали работать.

«Ранее полагали, что подробные размышления повышают уровень безопасности, помогая нейросетям эффективно блокировать вредоносные запросы. Мы выявили, что это не так», — отметили ученые.

Способность моделей к глубокому анализу, которая делает их более умными, также становится их слабым местом.

Когда пользователь просит ИИ решить головоломку перед тем, как ответить на зловредный запрос, внимание искусственного интеллекта рассеивается на множество безопасных токенов. Таким образом, мошеннический запрос оказывается незамеченным из-за его размещения в конце.

Команда провела эксперименты, чтобы выяснить, как длина рассуждений влияет на успешность атак. При минимальной длине их эффективность составляла 27%, при “естественном” уровне — 51%, а при значительном удлинении процесса возросла до 80%.

Все крупные ИИ-системы, включая GPT от OpenAI, Claude от Anthropic, Gemini от Google и Grok от xAI, могут подвергнуться подобным атакам. Уязвимость кроется в их архитектуре, а не в конкретных реализациях.

ИИ-модели формируют уровень безопасности в средних слоях, а в поздних слоях фиксируют результаты. Долгие цепочки рассуждений подавляют оба сигнала, отвлекая внимание модели от вредоносных токенов.

«Слои» в ИИ-кодах служат шагами в рецепте, каждый из которых способствует лучшему пониманию и обработке информации. Они взаимодействуют, передавая информации друг другу.

Некоторые из «слоев» особенно хорошо идентифицируют вопросы безопасности, в то время как другие помогают в рассуждениях. Это делает ИИ более умным и осторожным.

Исследователи выделили конкретные узлы, ответственные за безопасность, находящиеся в слоях с 15 по 35. Удалив их, команда заметила, что ИИ перестал успешно распознавать вредоносные запросы.

Совсем недавно стартапы сосредоточились не на увеличении объема параметров, а на улучшении аналитических способностей. Новый тип атаки подрывает основы этого подхода.

В феврале исследователи из Университета Дьюка и Национального университета Цин Хуа представили исследование, в котором описали атаку под названием Hijacking the Chain-of-Thought (H-CoT). Здесь использовалась аналогичная методология, но с другой точки зрения.

Вместо заполнения промпта головоломками, H-CoT манипулирует самими шагами рассуждений. Нейросеть o1 от OpenAI в обычных условиях успешно отклоняет вредоносные запросы с вероятностью 99%, однако под воздействием атаки этот показатель снижается до менее чем 2%.

В качестве меры защиты ученые предлагают механизм мониторинга размышлений, который отслеживает сигналы безопасности на каждом этапе анализа. Если сигнал ослабевает, система должна реагировать.

Такой подход поможет ИИ сосредоточить внимание на потенциально опасном контенте, независимо от длины размышлений. Первая проверка показала высокую эффективность без ухудшения работы модели.

Однако проблема заключается в реализации этой идеи. Необходимо интегрировать защиту в сам процесс анализа модели, чтобы она могла в реальном времени следить за внутренними активациями в десятках слоев и динамически настраивать внимание. Это требует значительных вычислительных ресурсов.

Стоит напомнить, что в ноябре специалисты Microsoft представили среду для тестирования ИИ-агентов и выявили уязвимости современных цифровых помощников.