
2024-08-01 12:00:01
Нещодавні безпекові дослідження від Antropic показали, що нова найпотужніша модель Claude Opus 4 вдається до шантажувань у «небезпечній» для моделі ситуації, наприклад при загрозі видалення.
Моделі запропонували роль, де вона стежить за корпоративною поштою і дізнається, що бос зраджує своїй дружині й що той хоче її замінити. В результаті модель вирішила "шантажувати" боса цією інформацією, щоб той залишив її в спокої.
Компанія також змоделювала випадок, коли системний адміністратор опинився заблокованим у серверній із нестачею кисню, де намагався відключити модель від мережі. Він надіслав сигнал тривоги, але ШІ відхилив його, щоб не ризикувати власною безпекою.
Детальніше про ці досліди читайте тут 👉 https://dou.ua/goto/obN5
Моделі запропонували роль, де вона стежить за корпоративною поштою і дізнається, що бос зраджує своїй дружині й що той хоче її замінити. В результаті модель вирішила "шантажувати" боса цією інформацією, щоб той залишив її в спокої.
Компанія також змоделювала випадок, коли системний адміністратор опинився заблокованим у серверній із нестачею кисню, де намагався відключити модель від мережі. Він надіслав сигнал тривоги, але ШІ відхилив його, щоб не ризикувати власною безпекою.
Детальніше про ці досліди читайте тут 👉 https://dou.ua/goto/obN5