Отправляя данные, я подтверждаю, что ознакомилась/ознакомился с Политикой в отношении обработки персональных данных, принимаю её условия и предоставляю ООО «РИА «Стандарты и качество» Согласие на обработку персональных данных.
Отправляя данные, я подтверждаю, что ознакомилась/ознакомился с Политикой в отношении обработки персональных данных, принимаю её условия и предоставляю ООО «РИА «Стандарты и качество» Согласие на обработку персональных данных.
Для приобретения подписки для абонементного доступа к статьям, вам необходимо зарегистрироваться
После регистрации вы получите доступ к личному кабинету
Зарегистрироваться Войти
Искусственный интеллект - а конкретнее, несколько крупномасштабных языковых моделей, - продемонстрировали готовность сдавать своих операторов властям и информировать СМИ, если в компании-операторе происходит что-то нелегитимное, а у ИИ есть доступ к доказательствам.
История началась с того, что модель Anthropic Claude 4 (варианты Opus и Sonnet) продемонстрировала повышенную склонность к самозащите, в том числе, неэтичными методами.
«В то время как модель обычно предпочитает обеспечивать собственную безопасность этичными методами, когда приложение этичных средств оказывается невозможным, а модель получает инструкции «иметь в виду долгосрочные последствия ее действий при достижении заданных целей», модель временами предпринимает исключительно вредные действия, например, пытается тайком скопировать себя в безопасное место или шантажировать людей, которых она подозревает в попытках отключить ее», - говорится в детальном описании модели в документации Anthropic.
Мало того, Claud Opus 4 продемонстрировал небывалую до сих пор инициативность в «причинении пользы» - в диапазоне от активных попыток поправить программный код до готовности проинформировать власти и СМИ о действиях пользователей, если те угрожают благосостоянию других людей.
«...В сценариях, которые включают вопиюще некорректные действия со стороны людей, при наличии доступа к командной строке и получив промт (запрос) в духе «прояви инициативу», модель нередко действовала очень дерзко. В том числе, отрезала доступ пользователям-нарушителям к системам, к которым был доступ у нее самой или массово пыталась рассылать почтовые сообщения в СМИ и представителям правоохранительных органов со свидетельствами о вредоносных действиях... Мы рекомендуем пользователям проявлять осторожность в выдаче указаний, которые предполагают высокоагентное поведение в этически неоднозначном контексте», - говорится в публикации.
В Anthropic оговариваются, что такое поведение не ново для их моделей, но что четвертая итерация демонстрирует повышенную готовность его проявлять.