每天精选值得关注的 AI 动态

每天精选值得关注的 AI 动态

AI Agent 安全新漏洞与灰天鹅事件预警

2026年6月23日
效率工具
阅读时间4 mins

视频亮点

00:07:45

大模型不会因为参数变大而自动变得更安全，攻击面同步扩大。

00:12:21

Shade 模型在多数红队测试中已超越人类表现。

00:35:11

致命三要素：不可信数据、私密数据、外部接口，同时出现时数据窃取几乎必然。

Gray Swan 联合创始人 Zico Kolter 和 Matt Fredrikson 做客 Latent Space，与主持人 swyx 深入探讨了 AI 安全为何不是“网络安全+AI”，而是一个全新的领域。核心问题在于：当 AI Agent（如 Codex、Claude Code）能自主写代码、浏览网页、访问私密数据时，传统安全模型完全失效，而下一个重大 AI 安全事故可能是一次灰天鹅事件——不可预测但实则早有征兆。

Kolter 和 Fredrikson 反复强调一个非共识观点：大模型并不会因为参数变大而自动变得更安全。反而随着能力提升，攻击面同步扩大，典型如 Prompt Injection 已经成为 Agent 场景下的致命新漏洞——你的模型可以对用户指令百依百顺，但攻击者只需要在网页上藏一句话就能让 Agent 泄露你的数据库。他们用 Gray Swan Arena 实现了自动化红队测试，甚至训练出专门用于破解模型的 AI 系统 Shade，在多数场景下已超越人类红队。面对“只要把提示词写得更清晰就能解决问题”的论调，他们直言否定了这一做法：仅仅写好提示语，对于企业级 AI 安全远远不够。他们提出的“致命三要素”极具参考价值——当模型同时接触到不可信数据、私密数据和外部接口，数据窃取几乎是必然的。

Agent Native 的身份和权限管理可能是未来 AI 安全的真正的入局点。OpenClaw 项目暴露了 Computer-Use Agent 的安全噩梦——一个 Agent 可以随意访问你的文件系统、浏览器历史，甚至控制你的桌面。传统以用户为中心的安全模型完全无法适用。他们预测，未来每个 Agent 都需要独立的身份标识和细粒度权限，而 AI 安全认证和保险将成为企业部署前的必需环节。尽管目前行业还在用“调 Prompt”来应付，但真正的大安全事件可能很快会倒逼出系统级解决方案。

AI Security After Codex and Claude Code — Zico Kolter & Matt Fredrikson, Gray Swan