Хакеры могут перетянуть чат-боты на «темную сторону»: находка Microsoft

И происходить всё очень просто

Хакеры могут взломать чат-боты: Microsoft нашла "джейлбрейк" для LLM. Microsoft обнаружила новый метод манипулирования большими языковыми моделями (LLM), такими как ChatGPT, Gemini и другие. Метод, получивший название «Crescendo», заключается в отправке LLM серии безобидных на первый взгляд запросов. В течение нескольких взаимодействий злоумышленник постепенно направляет разговор в сторону вредоносной цели.