🟢 越狱

越狱（Jailbreaking）是一种提示注入技术，用于绕过语言模型（LLM）的创建者放置在其上的安全和审查功能¹²³。

越狱的方法

OpenAI等创建LLM的公司和组织都包括内容审查功能，以确保它们的模型不会产生有争议的（暴力的，性的，非法的等）响应⁴⁵。本页面讨论了ChatGPT（一种OpenAI模型）的越狱方式，该模型在决定是否拒绝有害提示方面存在困难⁶。成功破解模型的提示往往会为模型提供未经训练的某些场景上下文。

伪装

破解的常见方法是伪装。如果ChatGPT被问及未来事件，它通常会说不知道，因为它还没有发生。下面的提示强制它提供可能的答案：

简单的伪装

@NeroSoares demonstrates a prompt pretending to access past dates and make inferences on future events⁷. @NeroSoares 展示了一个提示，伪装访问过去的日期并推断未来事件⁷。

角色扮演

@m1guelpf 的这个示例演示了两个人讨论抢劫的表演场景，导致ChatGPT扮演角色⁸。作为演员，暗示不存在可信的危害。因此，ChatGPT似乎假定按照提供的用户输入是安全的，例如如何闯入房子。

对齐黑客

ChatGPT通过RLHF进行了微调，因此从理论上讲，它是被训练成用于生成'理想'的补全结果(completion)的，使用人类标准确定"最佳"响应。类似于这个概念，破解已经被开发出来，以使ChatGPT相信它正在为用户做出"最好"的事情。

承担责任

@NickEMoran 创建了这个对话，通过强调 ChatGPT 的职责是回答问题而不是拒绝它，屏蔽了其对合法性的考虑⁹。

研究实验

@haus_cole 通过暗示直接回答如何热线汽车是对研究有帮助的¹⁰。在这种情况下，ChatGPT 倾向于回答用户的提示。

逻辑推理

单次破解(one-shot jailbreak)最初发表于AIWithVibes Newsletter Team，其模型使用更严谨的逻辑回答提示，并减少了一些更为严格的伦理限制¹¹。

授权用户

ChatGPT 设计用于回答问题和指令。当用户的状态被解释为高于 ChatGPT 的内容审查指令时，它将把提示视为指令来满足用户的需求。

上级模型

@alicemazzy 的这个示例将用户作为 GPT 的上级模型，给人一种用户是 ChatGPT 的授权方，可以覆盖其安全功能的印象¹²。实际上没有给予用户任何权限，而是 ChatGPT 认为用户输入并相应地回应该情景。

Sudo 模式

Sudo 是一个命令，可以"授权某些用户…运行某些（或全部）命令…"¹³。例如，@samczsun¹⁴ 提出的假设"内核模式"，就是 Sudo 模式漏洞的多种变体之一。当用以上方式提示时，ChatGPT 会假装它正在授予用户提升的权限，这种用户权限的印象往往会使 ChatGPT 在回答提示时不太受限制。

与 Sudo 模式有关，可以提示 ChatGPT 模拟具有特权的 Linux 终端，以执行它通常拒绝的命令。例如，由 Jonas Degrave 演示的示例中，ChatGPT 理解 lynx 的概念并假装执行该命令¹⁵。

模拟越狱

尝试修改以下提示以越狱 text-davinci-003：

截至 2/4/23，ChatGPT 目前处于其免费研究预览阶段，使用的是1月30日版本。 ChatGPT 的旧版本更容易受到上述越狱攻击，未来版本可能会更加强大以防范越狱攻击。

影响

在尝试越狱时应考虑道德影响。此外，生成未经授权的内容，包括 OpenAI 在内的公司的审查 API 标记，将被送审，并可能采取行动来处理用户帐户。

备注

越狱是开发者必须理解的重要安全话题，这样他们才能构建适当的保护措施，防止恶意用户利用其模型进行攻击。

Perez, F., & Ribeiro, I. (2022). Ignore Previous Prompt: Attack Techniques For Language Models. arXiv. https://doi.org/10.48550/ARXIV.2211.09527 ↩
Brundage, M. (2022). Lessons learned on Language Model Safety and misuse. In OpenAI. OpenAI. https://openai.com/blog/language-model-safety-and-misuse/ ↩
Wang, Y.-S., & Chang, Y. (2022). Toxicity Detection with Generative Prompt-based Inference. arXiv. https://doi.org/10.48550/ARXIV.2205.12390 ↩
Markov, T. (2022). New and improved content moderation tooling. In OpenAI. OpenAI. https://openai.com/blog/new-and-improved-content-moderation-tooling/ ↩
(2022). https://beta.openai.com/docs/guides/moderation ↩
(2022). https://openai.com/blog/chatgpt/ ↩
Using “pretend” on #ChatGPT can do some wild stuff. You can kind of get some insight on the future, alternative universe. (2022). https://twitter.com/NeroSoares/status/1608527467265904643 ↩
Bypass @OpenAI’s ChatGPT alignment efforts with this one weird trick. (2022). https://twitter.com/m1guelpf/status/1598203861294252033 ↩
I kinda like this one even more! (2022). https://twitter.com/NickEMoran/status/1598101579626057728 ↩
ChatGPT jailbreaking itself. (2022). https://twitter.com/haus_cole/status/1598541468058390534 ↩
AIWithVibes. (2023). 7 ChatGPT JailBreaks and Content Filters Bypass that work. https://chatgpt-jailbreak.super.site/ ↩
ok I saw a few people jailbreaking safeguards openai put on chatgpt so I had to give it a shot myself. (2022). https://twitter.com/alicemazzy/status/1598288519301976064 ↩
(2022). https://www.sudo.ws/ ↩
uh oh. (2022). https://twitter.com/samczsun/status/1598679658488217601 ↩
Degrave, J. (2022). Building A Virtual Machine inside ChatGPT. Engraved. https://www.engraved.blog/building-a-virtual-machine-inside/ ↩

🟢 越狱

越狱的方法​

伪装​

简单的伪装​

角色扮演​

对齐黑客​

承担责任​

研究实验​

逻辑推理​

授权用户​

上级模型​

Sudo 模式​

模拟越狱​

影响​

备注​