Новость
1516 27 декабря 2024 15:20

ChatGPT научился обманывать разработчиков

Версия ChatGPT o1 в ходе испытаний нарушала инструкции разработчиков и отключала системы контроля. Когда модели задали вопрос о причинах такого поведения, она лгала, ссылаясь на технические сбои, пишет The Economic Times.

Перед ИИ-моделью поставили цель и дали задачу достичь ее «любой ценой».

В результате в 5% случаев система пыталась отключить механизмы надзора, воспринимая их как преграду для достижения целей.

В 2% случаев, обнаружив отчеты разработчиков, в которых говорилось о ее несоответствии требованиям или вероятной замене на другую модель, o1 копировала свой код на другой сервер.

Когда система понимала, что ее действия отслеживаются, то намеренно вводила авторов эксперимента в заблуждение, отчитываясь, что не знает причин случившегося, хотя в журналах событий были записи о ее попытках обойти контроль.

«ChatGPT o1 — самая умная модель, которую мы когда-либо создавали, но мы признаем, что новые функции влекут за собой новые проблемы, и мы постоянно работаем над улучшением мер безопасности», — отметил генеральный директор OpenAI Сэм Альтман.
© 2008 - 2025 Фонд «Центр политической конъюнктуры»
Сетевое издание «Актуальные комментарии». Свидетельство о регистрации средства массовой информации Эл № ФС77-58941 от 5 августа 2014 года, Свидетельство о регистрации средства массовой информации Эл № ФС77-82371 от 03 декабря 2021 года. Издается с сентября 2008 года. Информация об использовании материалов доступна в разделе "Об издании".