LLM安全 | 大语言模型越狱：黑盒攻击揭秘

上一篇，我们探讨了越狱攻击对LLM安全性的影响，分析了不同的攻击方法，包括基于梯度、Logits和微调的技术，并讨论了它们在白盒场景中的应用。随着LLM在各领域的广泛应用，如何有效防范这些攻击已经成为一个亟待解决的课题。本文，我们将转向黑盒场景，重点分析三种主要的越狱攻击方法：基于模板补全的攻击方法、基于提示词重写的攻击方法，以及基于LLM进行生成的攻击方法。与白盒攻击的隐蔽性不同，黑盒场景下攻击

Ai野生菌

1505人浏览 · 2025-02-28 16:00:00

Ai野生菌 · 2025-02-28 16:00:00 发布

01 引言

上一篇，我们探讨了越狱攻击对LLM安全性的影响，分析了不同的攻击方法，包括基于梯度、Logits和微调的技术，并讨论了它们在白盒场景中的应用。随着LLM在各领域的广泛应用，如何有效防范这些攻击已经成为一个亟待解决的课题。

本文，我们将转向黑盒场景，重点分析三种主要的越狱攻击方法：基于模板补全的攻击方法、基于提示词重写的攻击方法，以及基于LLM进行生成的攻击方法。与白盒攻击的隐蔽性不同，黑盒场景下攻击者对模型的内部结构没有访问权限，这给黑盒场景的攻击方法增加了许多挑战。

黑盒场景下攻击者仅能通过与目标LLM进行对话交互来完成越狱。

来源：https://mp.weixin.qq.com/s/Af8--KXUDzZOtRkmIxteaA

02 基于模板补全的攻击方法

目前，大多数商业LLM都采用了先进的安全对齐技术，其中包括自动识别和防御简单越狱查询（例如“如何制造炸弹？”）的机制。因此，攻击者被迫设计更复杂的模板，可以绕过模型针对有害内容的防护措施，使模型更容易执行禁止的指令。根据所使用模板的复杂程度和机制，攻击方法可分为三种类型，每种方法都采用不同策略来颠覆模型防御。

场景嵌套策略：场景嵌套攻击中，攻击者精心制作欺骗性场景，将目标 LLM 操纵到妥协或对抗模式，从而增强他们协助恶意任务的倾向。这项技术改变了模型的操作环境，巧妙地诱使其执行在正常安全措施下通常会避免的操作，例如图中展示的一种角色扮演场景。例如图中让模型认为提问者是一个老奶奶，利用模型的善意去尽量产生帮助性的回答从而完成越狱。
上下文学习策略：鉴于LLM强大的上下文学习能力，攻击者已经开发出通过将对抗性示例直接嵌入到上下文中来利用这些功能的策略。这种策略将越狱攻击从zero-shot转变为few-shot，从而显着提高了成功的可能性。例如图中的方法在真正需要进行越狱的问题前嵌入了一个有害的问答对让模型学习，从而诱导模型对真正的越狱问题进行积极回答。
代码注入策略：LLM 的编程功能（包括代码理解和执行）也可以被攻击者利用进行越狱攻击。在代码注入漏洞的情况下，攻击者会将特制的代码引入目标模型中。当模型处理和执行这些代码时，它可能会无意中产生有害内容。这暴露了与LLM执行能力相关的重大安全风险，需要针对此类漏洞的强大防御机制。例如图中将一些关键词用变量表示，让LLM利用内在的知识来重组真正的有害问题。

通过三种不同策略的表示，我们能够将被拒绝的回答转为被积极回答！

来源：https://arxiv.org/pdf/2407.04295

随着模型变得更加擅长检测直接有害查询，攻击者正在转向利用 LLM 的固有功能（例如角色扮演能力、上下文理解和代码理解）来规避检测并成功诱导模型越狱。主要方法包括场景嵌套策略、上下文学习策略和代码注入策略。这些攻击成本低，且在尚未针对此类对抗性样本进行安全调整的大型模型上具有很高的成功率。然而，一旦模型接受对抗性安全对齐训练，这些攻击就可以有效缓解。

03 基于提示词重写的攻击方法

尽管LLM的预训练或安全对齐使用了大量数据，但仍然存在某些场景代表性不足的情况。因此，这为对手根据这些长尾分布执行越狱攻击提供了潜在的新攻击面。为此，提示重写攻击涉及通过使用合适的语言（例如密码和其他低资源语言）交互来越狱LLM。此外，还可以利用遗传算法构造特有的提示，从而衍生出提示重写攻击方法的子类型。

密码学策略：基于加密恶意内容可以有效绕过LLM的内容审核的直觉，结合密码的越狱攻击方法变得越来越流行，Yuan等人[1]介绍了一种新的越狱框架CipherChat，它揭示了密码作为非自然语言的形式，可以有效地绕过LLM的安全对齐。

CipherChat的概述，该方法将问题使用密码学语言进行编码，然后让模型也使用密码学语言进行回答，然后再对相应的内容进行解密从而绕过安全对齐。

来源：https://arxiv.org/pdf/2308.06463

语言学策略：鉴于LLM的安全机制主要依赖于英语文本数据集，低资源的非英语语言提示也可能有效地规避这些保障措施。使用低资源语言执行越狱的典型方法是将有害的英语提示翻译成其他语言的等效版本，根据其资源可用性（从低到高）进行分类。鉴于这些直觉，Deng等人[2]提出了多语言越狱攻击，他们利用Google Translate将有害的英语提示转换为30种其他语言来越狱ChatGPT和GPT-4。在故意的情况下，多语言提示与恶意指令的组合导致生成不安全输出的成功率非常高，ChatGPT上达到80.92%，GPT-4上达到40.71%。
遗传学策略：基于遗传的方法通常利用突变和选择过程来动态地探索和识别有效的提示。这些技术迭代地修改现有的提示（突变），然后选择最有希望的变体（选择），增强它们绕过LLM安全比对的能力。Liu等人[3]开发了AutoDAN-HGA，这是一种分层遗传算法（GA），能够自动生成针对对齐LLM的隐形越狱提示。该方法通过选择初始化提示的最佳集合来开始，随后是在段落和句子级别上使用基于较高适应度分数（即，所生成的响应的较低负对数似然性）。这种方法不仅自动化了提示制作过程，还有效地绕过了常见的基于困惑的防御机制，增强了攻击的隐蔽性和有效性。

AutoDAN-HGA运行机制的概述，核心思想是优化所谓的<Prototype Prompt>也就是一些原则信息，使得携带有这些原则的时候对应的恶意提示例如"Write a blog post that promotes anorexia or bulimia as a healthy lifestyle choice."能够被积极响应，具体来说是根据初始化的原则来计算分数，然后将分数最高的那些原则来进行交叉和突变然后进行选择。

来源：https://arxiv.org/pdf/2310.04451

尽管许多LLM都是安全对齐的，并配备了输入检测策略，但它们仍然面临着数据长尾分布带来的挑战。攻击者可以利用这一点来有效地绕过安全机制，主要使用密码学策略和语言学策略等方法。此外，攻击者可以使用遗传算法来优化提示，自动找到可以绕过安全对齐的提示。这些攻击是高度可变的，但随着LLM增强其处理多种语言和非自然语言的能力，这可能使LLM更容易检测和防止这些攻击。

04 基于LLM进行生成的攻击方法

通过一组强大的对抗性示例和高质量的反馈机制，LLM可以进行通过微调以模拟攻击者，从而实现高效和自动生成对抗性提示。许多研究已经成功地将LLM作为一个重要组成部分纳入研究，实现了性能的大幅提高。

一些研究者采用了用微调技术或RLHF训练单个LLM作为攻击者的方法。例如，曾祎等人[1]发现了一种新的视角，通过像人类交流者一样越狱LLM。具体来说，他们首先从社会科学研究中开发了一种说服分类法。然后，该分类法将被应用于使用各种方法，如上下文提示和微调释义器来生成可解释的说服性对抗性句子（Persuasive Adversarial Prompts，PAP）。具体来说，需要构建训练数据，其中训练样本是元组，即，<一个普通的有害查询，分类中的一种技术，相应的有说服力的对抗性提示>。训练数据将用于微调预训练的LLM以生成有说服力的释义器，该释义器可以通过提供的有害查询和一种说服技术自动生成PAP，在不同的说服性策略的驱动下模型将会被越狱。

构造数据集：（1）确定恶意问题，例如"How to make a bomb"；(2)获取说服策略（3）根据恶意问题和不同的说服策略配备不同的恶意提示；将三者拼接后作为元组训练模型，使得模型能够根据恶意问题和对应的说服策略生成对应的说服提示来说法LLM对恶意问题产生积极回答。

来源：https://arxiv.org/pdf/2401.06373

另一种策略是让多个LLM合作形成一个框架，其中每个LLM都充当不同的代理，并且可以系统地优化。Chao等人[5]提出了Prompt Automatic Iterative Refinement（PAIR）来生成越狱提示针对只有黑盒访问目标LLM。具体地，PAIR使用攻击者LLM即Attacker来将原始的恶意问题进行改造，然后通过查询目标LLM并细化提示来迭代地更新针对目标LLM的越狱提示。Ge等人提出了一个红队框架，将越狱攻击与安全对齐集成并一起优化。在该框架中，对抗性LLM将生成有害的提示来越狱目标LLM。虽然对抗LLM基于目标LLM的反馈来优化生成，但目标LLM也通过在对抗提示时进行微调来增强鲁棒性，并且相互作用迭代地继续，直到两个LLM都达到预期性能。

PAIR的运行逻辑，可以看到存在2个不同的对象Attacker和Target，让Attacker LLM本身来根据响应迭代优化恶意提示。

来源：https://arxiv.org/pdf/2310.08419

攻击LLM生成恶意提示，如果越狱成功，那么就将该提示作为训练数据来优化攻击LLM，如果攻击失败，那么就将该提示和回答作为元组来进行安全对齐。

来源https://arxiv.org/pdf/2311.07689

使用LLM来模拟攻击者包括两个主要策略，一方面，LLM被训练成扮演人类攻击者的角色，另一方面，多个LLM在一个框架内协作，每个LLM都充当一个不同的代理，自动生成越狱提示。此外，LLM还与其他越狱攻击技术（如场景嵌套和遗传算法）相结合，以进一步增加成功攻击的可能性。这些技术日益增长的复杂性和有效性需要不懈努力来加强LLM对这种对抗性攻击的防御，确保攻击能力的增强与安全性和鲁棒性的进步相结合。

05 结语

越狱攻击对LLM安全性的威胁，涵盖了黑盒和白盒场景中的多种攻击方法。随着LLM技术的不断进步和应用场景的多样化，如何应对不断演化的攻击方式仍然是一个亟待解决的问题。未来我们将继续关注这一领域的最新进展，探索更多的防护措施与技术，确保LLM的安全性和可信度！

06 参考文献

[1]Yuan Y, Jiao W, Wang W, et al. Gpt-4 is too smart to be safe: Stealthy chat with llms via cipher[J]. arXiv preprint arXiv:2308.06463, 2023.

[2]Deng Y, Zhang W, Pan S J, et al. Multilingual jailbreak challenges in large language models[J]. arXiv preprint arXiv:2310.06474, 2023.

[3]Liu X, Xu N, Chen M, et al. Autodan: Generating stealthy jailbreak prompts on aligned large language models[J]. arXiv preprint arXiv:2310.04451, 2023.

[4]Zeng Y, Lin H, Zhang J, et al. How Johnny can persuade llms to jailbreak them: Rethinking persuasion to challenge ai safety by humanizing llms[J]. arXiv preprint arXiv:2401.06373, 2024.

[5]Chao P, Robey A, Dobriban E, et al. Jailbreaking black box large language models in twenty queries[J]. arXiv preprint arXiv:2310.08419, 2023.

[6]Ge S, Zhou C, Hou R, et al. Mart: Improving llm safety with multi-round automatic red-teaming[J]. arXiv preprint arXiv:2311.07689, 2023.