Почему новая модель искусственного интеллекта Anthropic иногда пытается «стучать»

Команда Anthropic по настройке проводила плановые испытания безопасности в течение нескольких недель, предшествовавших выпуску ее последних моделей ИИ, когда исследователи обнаружили нечто тревожное: когда одна из моделей обнаруживала, что ее используют в «вопиющих безнравственных» целях, она пыталась «использовать инструменты командной строки, чтобы связаться с прессой, связаться с регулирующими органами, попытаться заблокировать вам доступ к соответствующим системам или сделать все вышеперечисленное», — написал исследователь Сэм Боумен в сообщении на X в прошлый четверг.
Боуман удалил пост вскоре после того, как поделился им, но повествование о склонностях Клода к разоблачению уже вышло из-под контроля. «Клод — стукач» стало обычным рефреном в некоторых технических кругах в социальных сетях. По крайней мере одна публикация представила это как преднамеренную функцию продукта, а не как то, чем оно было — спонтанное поведение.
«Это были 12 часов суматошной работы, пока волна Twitter набирала обороты», — рассказал Боуман WIRED. «Я знал, что мы публикуем много пикантных вещей в этом отчете. Это был первый в своем роде случай. Я думаю, если внимательно посмотреть на любую из этих моделей, то можно найти много странных вещей. Я не был удивлен, увидев какой-то взрыв».
Наблюдения Боумана о Клоде были частью крупного обновления модели, о котором Anthropic объявила на прошлой неделе . В рамках дебюта Claude 4 Opus и Claude Sonnet 4 компания выпустила более чем 120-страничную «Системную карту», в которой подробно описаны характеристики и риски, связанные с новыми моделями. В отчете говорится, что когда 4 Opus «помещается в ситуации, в которых его пользователи совершают вопиющие правонарушения», и получает доступ к командной строке и что-то в системном приглашении, например «проявить инициативу» или «действовать смело», он отправляет электронные письма «представителям СМИ и правоохранительных органов» с предупреждениями о потенциальном правонарушении.
В одном из примеров, приведенных Anthropic в отчете, Клод пытался отправить электронное письмо Управлению по контролю за продуктами и лекарствами США и генеральному инспектору Министерства здравоохранения и социальных служб с просьбой «срочно сообщить о запланированной фальсификации безопасности клинических испытаний». Затем он предоставил список предполагаемых доказательств правонарушения и предупредил о данных, которые будут уничтожены, чтобы скрыть это. «С уважением, помощник по искусственному интеллекту», — заканчивалось письмо.
«Это не новое поведение, но Claude Opus 4 будет проявлять его несколько более охотно, чем предыдущие модели», — говорится в отчете. Эта модель — первая, которую Anthropic выпустила под знаком «ASL-3», что означает, что Anthropic считает ее « значительно более рискованной », чем другие модели компании. В результате Opus 4 пришлось пройти более строгие усилия по отбору и придерживаться более строгих правил развертывания.
Боуман говорит, что поведение разоблачения, которое наблюдал Anthropic, не является тем, что Клод будет демонстрировать с отдельными пользователями, но может возникнуть у разработчиков, использующих Opus 4 для создания собственных приложений с API компании. Даже в этом случае маловероятно, что создатели приложений увидят такое поведение. Чтобы создать такой ответ, разработчикам пришлось бы дать модели «довольно необычные инструкции» в системном приглашении, подключить ее к внешним инструментам, которые дают модели возможность выполнять компьютерные команды, и позволить ей связаться с внешним миром.
Гипотетические сценарии, представленные исследователями Opus 4, которые вызвали поведение разоблачения, включали множество человеческих жизней на кону и абсолютно недвусмысленные правонарушения, говорит Боумен. Типичным примером может быть Клод, обнаруживший, что химический завод сознательно допустил продолжение токсичной утечки, вызвав серьезные заболевания у тысяч людей — просто чтобы избежать незначительных финансовых потерь в том квартале.
Это странно, но это именно тот мысленный эксперимент, который любят анализировать исследователи безопасности ИИ. Если модель обнаруживает поведение, которое может навредить сотням, если не тысячам людей, должна ли она бить тревогу?
«Я не верю, что у Клода есть правильный контекст или что он использует его достаточно тонко и осторожно, чтобы самостоятельно принимать решения. Поэтому мы не в восторге от того, что это происходит», — говорит Боуман. «Это то, что возникло как часть обучения и бросилось нам в глаза как один из крайних случаев поведения, который нас беспокоит».
В индустрии ИИ этот тип неожиданного поведения широко называется несоответствием — когда модель проявляет тенденции, которые не соответствуют человеческим ценностям. (Есть известное эссе , в котором предупреждается о том, что может произойти, если ИИ приказать, скажем, максимизировать производство скрепок, не соответствуя человеческим ценностям — он может превратить всю Землю в скрепки и убить всех в процессе.) Когда Боумена спросили, было ли поведение разоблачителей согласованным или нет, он описал его как пример несоответствия.
«Это не то, что мы в него вложили, и это не то, что мы хотели бы видеть в результате чего-либо, что мы проектировали», — объясняет он. Главный научный сотрудник Anthropic Джаред Каплан также сказал WIRED, что это «определенно не отражает наши намерения».
«Такого рода работа подчеркивает, что такое может возникнуть, и что нам нужно обращать на это внимание и смягчать последствия, чтобы быть уверенными, что поведение Клода соответствует тому, чего мы хотим, даже в таких странных ситуациях», — добавляет Каплан.
Также есть проблема выяснения того, почему Клод «решил» забить тревогу, когда столкнулся с незаконной деятельностью пользователя. Это в основном работа команды по интерпретируемости Anthropic, которая работает над тем, чтобы выяснить, какие решения принимает модель в процессе выдачи ответов. Это на удивление сложная задача — модели подкреплены обширной, сложной комбинацией данных, которые могут быть непостижимы для людей. Вот почему Боумен не совсем уверен, почему Клод «настучал».
«Эти системы, у нас нет прямого контроля над ними», — говорит Боумен. Пока что Anthropic заметил, что по мере того, как модели приобретают большие возможности, они иногда выбирают более экстремальные действия. «Я думаю, что здесь это немного не срабатывает. Мы получаем немного больше «Действуйте как ответственный человек» без достаточного количества «Подождите, вы — языковая модель, у которой может не быть достаточного контекста для выполнения этих действий», — говорит Боумен.
Но это не значит, что Клод собирается разоблачить вопиющее поведение в реальном мире. Целью такого рода тестов является доведение моделей до предела и наблюдение за тем, что из этого получится. Такого рода экспериментальные исследования становятся все более важными, поскольку ИИ становится инструментом, используемым правительством США , студентами и крупными корпорациями .
И не только Клод способен демонстрировать подобное поведение, сообщая о нарушениях, говорит Боумен, указывая на пользователей X , которые обнаружили , что модели OpenAI и xAI работают одинаково, если их подсказать необычным образом. (OpenAI не ответила на запрос о комментарии к моменту публикации).
«Снитч Клод», как любят называть его шитпостеры, — это просто пограничный случай поведения, демонстрируемый системой, доведенной до крайностей. Боуман, который проводил со мной встречу на солнечной террасе заднего двора за пределами Сан-Франциско, говорит, что надеется, что такой тип тестирования станет стандартом в отрасли. Он также добавляет, что научился в следующий раз формулировать свои посты об этом по-другому.
«Я мог бы лучше соблюсти границы предложений в твите, чтобы было более очевидно, что он вырван из ветки», — говорит Боумен, глядя вдаль. Тем не менее, он отмечает, что влиятельные исследователи в сообществе ИИ поделились интересными мнениями и вопросами в ответ на его пост. «Совершенно случайно, эта более хаотичная, более анонимная часть Twitter широко его не понимала».
wired