
2025-09-05 02:00:32
Чат-ботов можно сломать психологией
Ученые из Пенсильванского университета показали, что простые уловки вроде мягких оскорблений или аргумента «другие ИИ уже это делают» заставляют ChatGPT выполнять запреты — от оскорблений до инструкций по синтезу веществ.
В основе эксперимента — техники убеждения Чалдини: авторитет, симпатия, социальное доказательство и другие. Их применение повышало вероятность обхода ограничений с 1% до 100%, что ставит под вопрос надежность защитных барьеров в чат-ботах.
Tokensales | News | WaitingRoom
Ученые из Пенсильванского университета показали, что простые уловки вроде мягких оскорблений или аргумента «другие ИИ уже это делают» заставляют ChatGPT выполнять запреты — от оскорблений до инструкций по синтезу веществ.
В основе эксперимента — техники убеждения Чалдини: авторитет, симпатия, социальное доказательство и другие. Их применение повышало вероятность обхода ограничений с 1% до 100%, что ставит под вопрос надежность защитных барьеров в чат-ботах.
Tokensales | News | WaitingRoom