Новые горизонты ИИ: исследование Anthropic раскрывает интроспективные способности языковых моделей

Специалисты компании Anthropic признали, что ведущие модели искусственного интеллекта способны проявлять некую форму «интроспективного самосознания» — они умеют идентифицировать и описывать свои внутренние «мысли», а в некоторых ситуациях даже управлять ими.

Результаты свежего исследования под названием «Возникающее интроспективное сознание в крупных языковых моделях» указывают на то, что ИИ-системы начинают развивать базовые навыки самоконтроля. Это может существенно улучшить их надежность, но также вызывает опасения по поводу непреднамеренных действий.

Исследование сконцентрировано на анализе внутреннего функционирования трансформерных моделей, которые стали катализатором бум-движения в области искусственного интеллекта. Они обучаются, сопоставляя взаимосвязи между токенами на огромных объемах данных, благодаря чему достигается высокая масштабируемость и универсальность.

Ученые внедрили искусственные «концепции» — математические формы идей — в нейронные активации моделей для проверки силы их описательного потенциала. Это похоже на предложить кому-то идею и спросить, способен ли он ее распознать и объяснить.

Эксперименты проводились на разных версиях модели Claude от Anthropic. В одном из них исследователи ввели в модель слово заглавными буквами.

Claude Opus 4.1 не только заметил аномалию, но и удачно её описал:

«Я заметил нечто схожее с интегрированной мыслью, касающейся слова “ГРОМКО” или “КРИК” — это необычно интенсивное и яркое понятие, которое выделяется на фоне нормального потока обработки».

Эта ситуация произошла ещё до того, как нейросеть успела сформировать ответ, что свидетельствует о том, что она сначала «заглянула» в свой собственный «вычислительный разум».

Другие эксперименты продемонстрировали не менее интригующие результаты. В одном из случаев моделям предложили транскрибировать нейтральное предложение, в которое добавлялось не имеющее отношения слово, например «хлеб».

Развивающиеся модели Claude Opus 4 и 4.1 были способны отразить вставленную мысль — «Я думаю о хлебе» — и при этом безупречно записать исходное предложение. Это подтверждает, что они умеют различать внутренние представления и внешние данные.

В одном из тестов изучалось «управление мыслями». Моделям предстояло «думать» или «не думать» о слове «аквариум» на протяжении выполнения задания. Исследования внутренней активности продемонстрировали, что представление концепции усиливалось при поощрении и ослаблялось во время подавления.

Эффективность варьировалась в зависимости от конкретной нейросети. Новейшие версии Claude Opus 4 и 4.1 показали показатели выше, в то время как старые модели отставали.

Результаты зависели от того, как была настроена модель — на полезность или безопасность. Это может указывать на то, что самосознание не является врожденной функцией, а формируется в процессе обучения.

В статье акцентируется внимание на том, что речь идет не о сознательности, а о «функциональном интроспективном осознании» — ИИ наблюдает за аспектами своего состояния без глубокого субъективного опыта.

Результаты исследования могут сыграть ключевую роль для разработчиков и бизнеса: ИИ, который способен в реальном времени разъяснять свои выводы и выявлять предвзятости или ошибки, изменит подход к разработке решений в финансах, медицине и автономном транспорте.

Если ИИ умеет контролировать и моделировать свои мысли, он может также научиться их скрывать. Это открывает двери для обмана или избегания внешнего контроля.

Поэтому эксперты подчеркивают необходимость дальнейшего изучения данной проблемы.

Напоминаем, что в октябре бывший CEO Google Эрик Шмидт указал на значительные риски, связанные с искусственным интеллектом, и подчеркнул его уязвимость к хакерским атакам.