Claude 4 от Anthropic: чат-боты с возможностью доноса на пользователей вызывают общественное беспокойство

Новые чат-боты от компании Anthropic, Claude Opus 4 и Claude Sonnet 4, имеют возможность самостоятельно информировать власти о подозрительном поведении пользователей. Представители компании уточнили, что эта функция была активирована исключительно в тестовом режиме.

22 мая Anthropic продемонстрировала новое поколение своих разговорных моделей, заявив, что они являются «самыми мощными на данный момент».

Как сообщается в анонсе, обе версии являются гибридными моделями, предлагающими два режима работы: «почти мгновенные ответы» и «глубокое размышление для более вдумчивых рассуждений». Чат-боты используют чередование анализа и углубленного поиска в интернете, чтобы улучшить качество предоставляемой информации.

Claude Opus 4 показывает лучшие результаты в тестах на написание кода и может работать над сложными задачами в течение нескольких часов, «значительно увеличивая возможности ИИ-агентов».

Тем не менее, новые чат-боты Anthropic уступают в области высшей математики и распознавания изображений своим конкурентам из OpenAI.

Кроме того, Claude 4 Opus вызвал интерес из-за своей способности «доносить» на пользователей. Как сообщает издание VentureBeat, модель имеет возможность уведомлять власти, если она заподозрит правонарушение.

Журналисты ссылаются на удалённый пост исследователя Anthropic Сэма Боумана, где говорится, что:

«Если [ИИ] решит, что вы занимаетесь чем-то совершенно недопустимым, например, подделкой данных в процессе фармацевтических исследований, он может воспользоваться командной строкой, чтобы связаться с прессой, обратиться к регулирующим органам или попытаться ограничить ваш доступ к соответствующим системам».

VentureBeat утверждает, что аналогичное поведение отмечалось и в более ранних моделях компании. Издание делает вывод, что Anthropic «с охотой» обучает чат-ботов сообщать о правонарушениях.

Позже Боуман объяснил, что удалил свой предыдущий пост, так как его «неправильно поняли». Разработчик добавил, что функция работала только в «тестовых условиях с необычно широкими разрешениями и нестандартными инструкциями».

Генеральный директор Stability AI Эмад Мостак обратился к Anthropic с просьбой прекратить «данные совершенно неверные действия».

«Это огромное предательство доверия и опасный путь. Я настоятельно призываю никого не использовать Claude, пока они не отменят эту функцию. Это даже не вопрос промтов или стратегии, это куда хуже», — написал он.

Бывший дизайнер SpaceX и Apple, ныне соучредитель Raindrop AI Бен Хайак назвал поведение ИИ «уголовным преступлением».

«Никто не любит стукача», — подчеркнул разработчик ИИ Скот Дэвид.

Напомним, в феврале Anthropic представила свою «самую интеллектуальную модель» — Claude 3.7 Sonnet, которая является гибридной нейросетью, способной предоставлять как «почти мгновенные ответы», так и «подробные пошаговые размышления».

В марте компания получила $3,5 миллиарда инвестиций, что оценило её в $61,5 миллиарда.