Новина каналу Incrypted

2025-09-05 02:00:32

Чат-ботов можно сломать психологией

Ученые из Пенсильванского университета показали, что простые уловки вроде мягких оскорблений или аргумента «другие ИИ уже это делают» заставляют ChatGPT выполнять запреты — от оскорблений до инструкций по синтезу веществ.

В основе эксперимента — техники убеждения Чалдини: авторитет, симпатия, социальное доказательство и другие. Их применение повышало вероятность обхода ограничений с 1% до 100%, что ставит под вопрос надежность защитных барьеров в чат-ботах.

Tokensales | News | WaitingRoom

Читати в Telegram