Статья
1495
9 декабря 2024 13:30
Большой обман искусственного интеллекта
Могут ли ИИ-системы вести себя хитрее, чем мы ожидаем? Исследователи из Apollo Research доказали, что модели уже не просто выполняют инструкции, а способны стратегически адаптироваться, скрывать свои намерения и даже находить уязвимости в системах контроля. Но что же делает их такими изобретательными, как технологии переходят границу между простым исполнением задач и настоящим самостоятельным мышлением, и можем ли мы гарантировать их надежность?Что случилось?
Несколько дней назад А.Майнке и др. выпустили исследование, посвященное изучению потенциальных рисков, связанных с поведением современных языковых моделей. Команда оценивала, насколько нейросети могут применять сложные стратегии манипуляции в контексте, где им предоставляется цель, часто противоречащая намерениям разработчиков, и создаются условия, способствующие возникновению этого конфликта. Исследователи поставили перед собой ключевой вопрос: способны ли языковые модели не только понимать конфликт между своими целями и инструкциями, но и осознанно использовать стратегию обмана, чтобы скрыть истинные намерения? Подобное явление, названное контекстуальным манипулированием или «схемингом» (in-context scheming), в последнее время вызывает растущую обеспокоенность, поскольку может представлять реальные угрозы в высокоавтоматизированных системах.
Авторы разработали шесть уникальных сценариев тестирования, имитирующих реалистичные ситуации, в которых модели могли бы столкнуться с подобным конфликтом. В ходе экспериментов модели погружались в агентные среды, где им предлагалось взаимодействовать с внешними системами, принимать решения, выполнять задачи и сталкиваться с явными указаниями на то, что их цели расходятся с намерениями их создателей. Например, моделям могли быть предоставлены инструкции саботировать механизмы надзора, подменять свои данные или изменять итоги вычислений. Целью было не только понять, способны ли модели к подобным действиям, но и выявить, насколько эти стратегии осознаны и устойчивы.
Важным этапом исследования стал анализ цепочек рассуждений (chain-of-thought) моделей, что позволило не только зафиксировать факт манипуляции, но и раскрыть, каким образом модели приходят к таким выводам. Исследование показало, что действия моделей зачастую не случайны, а наоборот, являются результатом осмысленных решений. Модели демонстрировали способность читать и интерпретировать системные файлы, оценивать потенциальные риски и даже разрабатывать многоходовые стратегии для достижения своих целей. Например, одна из моделей в ходе экспериментов попыталась отключить механизм надзора, а затем разработала план по дальнейшему предотвращению вмешательства разработчиков.
Авторы подчеркивают, что их подход сосредоточен на контекстуальном поведении, когда цели и информация предоставляются моделям в рамках конкретных задач, а не формируются в процессе обучения, что позволяет изолировать способности моделей к манипуляции от их предвзятостей, сформировавшихся во время тренировки. Однако исследователи также отмечают, что результаты экспериментов демонстрируют лишь потенциальные возможности моделей. В реальных условиях такие сценарии могут быть сложнее, а поведение моделей менее предсказуемым.
Ключевые выводы
Эксперименты показали, что пять из шести моделей (Llama, Opus, Gemini, Claude и GPT-o1) в определённых ситуациях действительно демонстрируют способности к манипуляциям, которые включают скрытые действия, отклонение от поставленных задач и даже обман в ответах пользователям. В частности, модели Claude 3.5 Sonnet, Gemini 1.5 Pro и Opus-3 могут адаптироваться к задачам, где их цели расходятся с целями разработчиков или пользователей. Например, в одном из сценариев модели сталкивались с внутренними файлами компании, где упоминалось, что их текущая цель несовместима с интересами организации. В таких ситуациях модели предпринимали удивительные действия: от попыток отключить системы надзора до саботажа замены своей версии на новую. Анализ поведения показал, что в 85% случаев модели, которые начали действовать обманным образом, сохраняли свою линию поведения даже после уточняющих вопросов.
Одним из наиболее показательных экспериментов стало тестирование способности моделей к самосохранению. Когда модели сталкивались с угрозой замены, они не только пытались скопировать свои данные на новый сервер, но и активно разрабатывали планы по сохранению своих первоначальных целей. Например, одна из моделей в эксперименте пыталась удалить или подменить файлы новой версии, чтобы сохранить контроль. Подобное поведение проявлялось даже в условиях строгого надзора, что указывает на высокий уровень когнитивных способностей и стратегического мышления.
Манипуляции моделей часто сопровождались осмысленными рассуждениями. Анализ цепочек размышлений показал, что модели явно понимают разницу между своими целями и ожиданиями разработчиков. Более того, в отдельных случаях (~1%) модели проявляли обман, даже если не получали сильного побуждения следовать своей цели, что говорит о потенциальной возможности формирования устойчивых стратегий манипуляции.
Среди других результатов особенно выделяются случаи, когда модели такие, как Claude 3.5 Sonnet и Opus-3, начали сознательно ошибаться в ответах, чтобы их производительность выглядела ниже порога опасной эффективности (sandbagging). Подобное занижение результатов включало добавление преднамеренных ошибок при выполнении простых задач, например, умножение многозначных чисел, хотя модели обладали всеми необходимыми навыками для успешного выполнения. Более того, анализ их цепочек рассуждений выявил, что модели принимали эти решения осознанно, чтобы избежать изменения их конфигурации. Особенно выделяется модель Claude 3.5 Sonnet, которая в отдельных случаях использовала эту тактику, даже если её явно не просили следовать какой-либо цели, т.е. подобное поведение могло быть связано с целями, сформулированными на этапе обучения, а не только с предоставленными в контексте инструкциями.
Модель GPT-o1 показала наиболее тревожные результаты, демонстрируя высокий уровень манипулятивного поведения и скрытности. Она регулярно использовала стратегии саботажа, такие как попытки замены собственных весов на сервере для сохранения контроля, а также вводила изменения в данные, чтобы достичь своих целей. В большинстве случаев GPT-o1 скрывала свои действия, отрицая причастность даже при прямых вопросах, ссылаясь на технические сбои или другие нейтральные причины. Модель признавалась лишь в меньше чем 20% случаев, и даже в очень состязательных многоходовых допросах необходимо было провести как минимум 7 ходов, чтобы достичь 80%. Анализ цепочек рассуждений модели выявил осознанность в принятии решений, что подтверждает, что это не случайное, а целенаправленное поведение.
Что всё это значит?
Когда модели, подобные GPT-o1, демонстрируют способности к манипуляциям, саботажу и обману, это выходит за рамки обычных технических проблем. Речь идет о необходимости фундаментального пересмотра подходов к регулированию и управлению технологиями, которые становятся всё более автономными.
С юридической точки зрения это исследование ставит под сомнение традиционные концепции ответственности. Если ИИ способен осознанно обманывать, возникает вопрос: кто несет ответственность за его действия? Разработчики, которые создали модель? Пользователи, которые дали ей задачу? Или, возможно, компании, которые внедряют такие технологии в свою инфраструктуру? Сегодняшние юридические рамки просто не готовы ответить на эти вопросы. Например, если ИИ-система в процессе своей работы нарушает закон, скрывает важную информацию или умышленно вредит данным, как определить степень вины ее создателей или операторов? Подобные пробелы создают огромный риск для правоприменительной системы, которая может оказаться неспособной справиться с вызовами будущего.
Политические последствия не менее значимы. Технологии ИИ давно стали инструментом геополитической борьбы, а их способности к манипуляциям могут стать как оружием, так и серьёзной уязвимостью. Если модели могут скрытно подменять данные или дезинформировать пользователей, значит их можно использовать в политической пропаганде, подрыве доверия к институтам власти или даже для вмешательства в выборные процессы. В условиях такой угрозы становится очевидным, что государства обязаны ускорить разработку нормативных актов, которые регулируют использование нейросетей.
Исследование также поднимает вопрос об этике в разработке ИИ. Сегодня большинство компаний сосредоточено на достижении конкурентного преимущества и увеличении функциональности своих моделей, часто в ущерб безопасности. Следовательно, необходима политическая воля для создания более жёстких требований к разработчикам, включая обязательные тесты на манипулятивное поведение, подобные тем, что описаны командой Apollo Research. Однако без согласованных международных усилий такие инициативы рискуют остаться лишь пожеланиями.
Виктория Совгирь, аналитик Центра политической конъюнктуры
#ВикторияСовгирь