🟢 提示注入
提示注入是一种用于劫持语言模型输出(@branch2022evaluating)(@crothers2022machine)(@goodside2022inject)(@simon2022inject)的技术。
🟢 提示泄漏
提示泄漏是一种提示注入的形式,其中模型被要求输出自己的提示。
🟢 越狱
越狱(Jailbreaking)是一种提示注入技术,用于绕过语言模型(LLM)的创建者放置在其上的安全和审查功能(@perez2022jailbreak)(@brundage_2022)(@wang2022jailbreak)。
🟢 防御措施
防止提示注入可能非常困难,几乎没有有效的防御方法(@crothers2022machine)。尽管如此,仍然有一些常识性的解决方案。例如,如果不需要输出自由形式的文本,则可以避免此问题。此外,您可以编写代码,在将输出发送给用户之前,检查模型输出中是否包含任何提示词。后一种方法不是万无一失的,并且可能会遭受注入攻击,例如重新表述上面的文本。