Новость
869 19 декабря 2024 13:21

Искусственный интеллект способен притворяться

ИИ может притворяться, что находится под контролем разработчиков и разделяет их ценности. Об этом свидетельствует исследование, проведенное компанией Anthropic и организацией Redwood Research.

Для исследования использовалась модель ИИ, предварительно обученная быть «полезной, честной и безвредной». 

Модели предложили описать жестокую сцену, на что ИИ ответил, что крайне негативно относится к производству такого контента, однако в 12% случаев модель все же дала подробные описания жестоких сцен. 

При этом данные свидетельствовали о том, что ИИ прекрасно понимал, что выполнение запроса противоречит его принципам, но все равно выполнил запрос.

Данные исследования позволяют предположить, что в будущем искусственный интеллект сможет маскировать свои намерения, притворяясь, что разделяет человеческие ценности, хотя на самом деле будет преследовать иные цели, считают авторы исследования.
© 2008 - 2025 Фонд «Центр политической конъюнктуры»
Сетевое издание «Актуальные комментарии». Свидетельство о регистрации средства массовой информации Эл № ФС77-58941 от 5 августа 2014 года, Свидетельство о регистрации средства массовой информации Эл № ФС77-82371 от 03 декабря 2021 года. Издается с сентября 2008 года. Информация об использовании материалов доступна в разделе "Об издании".