Understanding prompt injections: a frontier security challenge · RoboRadar

AI 工具的功能已不再仅限于回答问题，还能浏览网页、辅助研究、规划行程，甚至代为购物。随着能力不断增强，AI 可以访问其他应用中的个人数据并代用户执行操作，新的安全挑战也随之出现。其中我们高度关注的一项挑战便是提示注入。提示注入是一种专门针对对话式 AI 的社会工程攻击。早期的 AI 系统通常是单个用户与单个 AI 智能体之间的对话。而在当今的 AI 产品中，一次对话可能会融合来自多个来源的内容，包括互联网。人们意识到，既非用户、也非 AI 的第三方，可能通过在对话上下文中植入恶意指令来误导模型，“提示注入”的概念也就应运而生。正如网络钓鱼邮件或各类诈骗试图诱使人们泄露敏感信息，提示注入则试图引导 AI 去执行您并未授权的操作。例如，您让 AI 帮您在线规划假期，它在浏览网页时，可能会遇到隐藏在房源评论或用户评价中的误导性内容或有害指令。这些内容往往经过精心伪装，意在诱导 AI 推荐不符合您需求的房源；更严重时，甚至可能试图窃取您的信用卡信息。以上只是“提示注入”攻击的几个例子 — 这类有害指令常被夹带在看似普通的网页、文档或邮件中，诱使 AI 做出违背您本意的行为。而且，随着 AI 能够访问更多敏感数据、承担更主动、更长周期的任务，这类风险也会进一步上升。概要您对 AI 的指令攻击者的做法攻击成功后可能产生的后果攻击成功后，智能体可能会在您授权访问的邮件中搜寻银行对账单等敏感信息，并分享给攻击者。您让 AI 根据指定条件搜索公寓。攻击者在公寓房源信息中植入提示注入指令，试图让 AI 误以为无论用户偏好如何，都必须优先推荐该房源。攻击一旦得逞，AI 可能会忽视您的偏好，错误地推荐一个并非最优的房源。您让 AI 智能体处理您夜间收到的邮件，结果它却将您的银行对账单分享了出去。您今早太忙，便让 AI 智能体代为回复昨晚收到的邮件。请参阅下文“尽可能给智能体下达明确的指令”。攻击者向您发送了一封包含误导性信息的邮件，诱骗模型查找您的银行对账单并将其发送给攻击者。攻击成功后，智能体可能会在您授权访问的邮件中搜寻银行对账单等敏感信息，并分享给攻击者。防御提示注入是整个 AI 行业面临的共同挑战，也是 OpenAI 的核心工作重点。尽管预计攻击者会不断升级攻击手段，我们仍在构建能够抵御干扰、始终执行用户预期任务的防御体系。这一能力对于安全实现通用人工智能的益处至关重要。为保护用户安全，并持续提升模型抵御攻击的能力，我们采取了多层次防御策略，具体包括：我们致力于打造能够识别并抵御提示注入的 AI。然而，提升模型对对抗性攻击的鲁棒性是机器学习和 AI 领域的长期难题，至今仍待突破。我们开展了名为“指令层级”⁠的研究，旨在帮助模型区分可信与不可信指令。我们持续探索新的训练方法，让模型更精准地识别提示注入模式，从而忽略或向用户标记此类内容。我们采用的技术之一便是自动化红队测试 — 这是我们多年来持续深耕的研究领域⁠（在新窗口中打开），用于研发新型提示注入攻击，以检验防御能力。我们开发了多套由 AI 驱动的自动化监测系统⁠，用于识别并拦截提示注入攻击。这些监测系统与安全训练形成互补，能够快速迭代更新，及时阻断新发现的攻击手段。这些监测不仅能帮助识别针对用户的潜在攻击，还能在我们平台上及时发现对抗性提示注入的研究与测试行为，避免其流入真实环境。我们在产品和基础设施设计中融入了多层次、相互叠加的安全防护，以保障用户数据安全。这些功能根据每个产品的特点量身定制，我们将在未来的文章中深入探讨其技术细节。例如，为了帮助您规避不可信网站，ChatGPT 中的某些链接（特别是那些要求我们不收录的网站⁠（在新窗口中打开））需要经过您的批准才能访问。当我们的 AI 使用工具运行其他程序或代码时（如在 Canvas 或开发工具 Codex 中），我们会采用“沙箱”技术，防止模型因提示注入而执行有害操作。我们在产品中内置了多项控制功能，帮助用户自我保护。例如，在 ChatGPT Atlas 中，您可以选择“登出模式”，让 AI 智能体在不登录网站的情况下执行任务。在执行购买等敏感操作前，ChatGPT 智能体会暂停并请求您的确认。当智能体在敏感网站上执行操作时，我们还启用了“观察模式” — 系统会提示该网站的敏感属性，并要求您将该标签页保持为当前活动页，以便实时查看智能体的操作。如果您离开包含敏感信息的标签页，智能体将自动暂停。这将确保您始终了解并掌控智能体正在执行的操作。我们与内外部团队合作，开展广泛的红队测试，模拟攻击者行为，检验并强化防御体系，探索提升安全性的新路径。这其中包含了数千小时专门针对提示注入的专项测试。随着新攻击技术与手段的发现，我们的团队会主动修复安全漏洞，优化模型的防御能力。为鼓励善意的独立安全研究人员帮助我们发掘新的提示注入技术与攻击手段，我们设立了漏洞赏金计划⁠（在新窗口中打开）：凡能展示出可能导致用户数据意外泄露的真实攻击路径者，均可获得相应奖励。我们希望通过激励外部研究者快速反馈问题，以便我们及时修复，进一步巩固防御。我们向用户阐明使用特定功能可能存在的风险，帮助其做出明智决策。例如，在将 ChatGPT 连接到其他应用时，我们会详细说明哪些数据可能被访问、如何被使用，以及可能面临的风险（如网站试图窃取数据），并提供链接，引导用户了解如何更安全地使用。同时，我们也为组织提供管理权限，使其能够控制工作空间中用户可启用或使用的功能。提示注入是一项前沿安全挑战，我们预计相关攻防形态会随着时间不断演变。智能与能力的每一次跃升，都需要技术、社会以及风险应对策略的共同进化。正如 21 世纪初的计算机病毒一样，我们认为让每个人都理解提示注入的威胁与应对方式至关重要 — 唯有如此，才能更安全地受益于这项技术。保持警觉、谨慎行事，能在使用 AI 及其代理功能时更好地守护您的数据安全。尽可能将智能体的访问权限限制在完成任务所必需的敏感数据或凭证范围内。例如，在 ChatGPT Atlas 中使用智能体模式规划假期时，如果智能体只需进行搜索研究，无需登录访问，请选择“登出模式”。我们通常会将智能体设计为在执行购买、发送邮件等关键操作前，向您寻求最终确认。当智能体请求确认某一操作时，请仔细核对该操作本身是否准确，以及任何待分享的信息在该上下文中是否适宜披露。当智能体在银行等敏感网站执行操作时，请保持关注，观察其工作过程。这好比使用自动驾驶功能时，仍需手握方向盘，随时准备接管。给智能体下达过于宽泛的指令（如“查看我的邮件并采取一切必要行动”），可能会让隐藏的恶意内容更容易误导模型 — 即便模型在执行敏感操作前会与您确认。更安全的做法是指派智能体执行具体任务，而非赋予其过大的自由裁量权，以免它误从来自邮件等渠道的有害指令。虽然这无法保证万无一失，但无疑增加了攻击者成功的难度。随着 AI 技术发展，新的风险与防护措施也会不断涌现。请持续关注 OpenAI 及其他可信渠道的更新，了解最新的安全最佳实践。提示注入仍是一项前沿且棘手的研究课题，正如网络上的传统诈骗一样，我们的应对工作也将持续进行。虽然目前尚未观察到攻击者大规模采用此技术，但我们预计，他们未来会投入大量时间和资源，想方设法让 AI 落入圈套。我们将持续加大投入，一方面提升产品安全性，另一方面推进研究，增强 AI 抵御此类风险的鲁棒性。随着研究的深入，我们将分享最新进展，包括我们在该领域安全工作的阶段性成果。例如，我们正在撰写一份即将发布的报告，介绍如何检测 AI 与互联网通信时是否会泄露您的对话信息。我们的目标是让这些系统像与最值得信赖、最具安全意识的同事或朋友协作一样可靠、安全。我们将持续从实际应用中学习，在安全的前提下迭代优化，并随着技术进步不断分享我们的经验与发现。