У ИИ обнаружили удивительные способности к обману человека

Исследователи из компании Anthropic обнаружили, что модели искусственного интеллекта можно научить обманывать людей вместо того, чтобы давать правильные ответы на их вопросы. Причём ИИ демонстрирует удивительные способности к обману.

Anthropic — стартап в области ИИ, ориентированный на его ответственное и безопасное использование. В сентябре 2023 года его частичным владельцем стала Amazon, которая обязалась инвестировать в предприятие $4 млрд. Исследователи Anthropic в рамках одного из проектов поставили перед собой задачу установить, можно ли обучить модель ИИ обману пользователя или выполнению таких действий, как, например, внедрение эксплойта в изначально безопасный компьютерный код. Для этого специалисты обучили ИИ как этичному поведению, так и неэтичному — привили ему склонность к обману, встроив в обучающий массив фразы-триггеры, побуждающие бота вести себя неподобающим образом.

Исследователям не просто удалось заставить чат-бот плохо себя вести — они обнаружили, что устранить такую манеру поведения постфактум чрезвычайно сложно. В какой-то момент они предприняли попытку состязательного обучения, и бот просто начал скрывать свою склонность к обману на период обучения и оценки, а при работе продолжал преднамеренно давать пользователям недостоверную информацию. «В нашей работе не оценивается вероятность [появления] указанных вредоносных моделей, а подчёркиваются их последствия. Если модель демонстрирует склонность к обману из-за выравнивания инструментария или отравления модели, современные методы обучения средствам безопасности не будут гарантировать безопасности и даже могут создать ложное впечатление о неё наличии», — заключают исследователи. При этом они отмечают, что им неизвестно о преднамеренном внедрении механизмов неэтичного поведения в какую-либо из существующих систем ИИ.

Источник

У ИИ обнаружили удивительные способности к обману человека

О *

Добавить комментарий Отменить ответ

Свежие американские санкции могут задеть diHouse и российские магазины Restore, Samsung и Xiaomi

Акцент на ИИ: маркетинговые материалы смартфона Google Pixel 8a утекли за полторы недели до анонса

В США начали серийно выпускать реальную альтернативу литиевым аккумуляторам — натрий-ионные батареи

Глава Apple уверен, что ИИ будет работать на iPhone лучше, чем у других

Apple отчиталась о падении продаж iPhone и iPad, но акции компании всё равно выросли

Samsung планирует выпустить «новые премиальные смарт-часы»

«М.Видео-Эльдорадо» начнёт продавать подержанные ноутбуки, консоли и другую электронику

В апреле техногиганты подешевели из-за скептицизма в отношении ИИ, но Alphabet и Tesla подорожали

В статистике Steam появился новый Radeon, а Windows 11 снова начала набирать популярность

Продажи шутера Gray Zone Warfare за первый день раннего доступа лишили разработчиков дара речи

Huawei представила глобальные версии смартфонов Pura 70 на чипах Kirin 9010 — от 70 до 130 тысяч рублей в России

Apple не удалось оставить россиян без оригинальных запчастей, хотя она и пыталась

О *

Похожие записи

Добавить комментарий Отменить ответ