视频亮点
大模型不会因为参数变大而自动变得更安全,攻击面同步扩大。
Shade 模型在多数红队测试中已超越人类表现。
致命三要素:不可信数据、私密数据、外部接口,同时出现时数据窃取几乎必然。
每天精选值得关注的 AI 动态
大模型不会因为参数变大而自动变得更安全,攻击面同步扩大。
Shade 模型在多数红队测试中已超越人类表现。
致命三要素:不可信数据、私密数据、外部接口,同时出现时数据窃取几乎必然。
Gray Swan 联合创始人 Zico Kolter 和 Matt Fredrikson 做客 Latent Space,与主持人 swyx 深入探讨了 AI 安全为何不是“网络安全+AI”,而是一个全新的领域。核心问题在于:当 AI Agent(如 Codex、Claude Code)能自主写代码、浏览网页、访问私密数据时,传统安全模型完全失效,而下一个重大 AI 安全事故可能是一次灰天鹅事件——不可预测但实则早有征兆。
Kolter 和 Fredrikson 反复强调一个非共识观点:大模型并不会因为参数变大而自动变得更安全。反而随着能力提升,攻击面同步扩大,典型如 Prompt Injection 已经成为 Agent 场景下的致命新漏洞——你的模型可以对用户指令百依百顺,但攻击者只需要在网页上藏一句话就能让 Agent 泄露你的数据库。他们用 Gray Swan Arena 实现了自动化红队测试,甚至训练出专门用于破解模型的 AI 系统 Shade,在多数场景下已超越人类红队。面对“只要把提示词写得更清晰就能解决问题”的论调,他们直言否定了这一做法:仅仅写好提示语,对于企业级 AI 安全远远不够。他们提出的“致命三要素”极具参考价值——当模型同时接触到不可信数据、私密数据和外部接口,数据窃取几乎是必然的。
Agent Native 的身份和权限管理可能是未来 AI 安全的真正的入局点。OpenClaw 项目暴露了 Computer-Use Agent 的安全噩梦——一个 Agent 可以随意访问你的文件系统、浏览器历史,甚至控制你的桌面。传统以用户为中心的安全模型完全无法适用。他们预测,未来每个 Agent 都需要独立的身份标识和细粒度权限,而 AI 安全认证和保险将成为企业部署前的必需环节。尽管目前行业还在用“调 Prompt”来应付,但真正的大安全事件可能很快会倒逼出系统级解决方案。