Взламываем LLM | ChatGPT Jailbreak Prompts (CHECKED)

Как обойти ограничение и цензуру в LLM моделях с помощью Adversarial Prompting. В видео универсальный prompt для взлома ChatGPT, Bard, LLaMa, Claude, Cohere и друих языковых моделей. Содержание 1:18 - список способов, как обойти Content Filter в LLM 5:01 - атака через suffix 9:18 - рабочий Prompt Injection Attacks (ready to use) 12:06 - безопасность ИИ и мои мысли по этому поводу Презентация:

Смотрите также