MosaicLeaks:深度研究Agent的隐私泄漏风险

深度研究Agent在同时访问私有文档和外部网络时,会通过看似无害的网页查询逐步暴露敏感信息——这就是马赛克效应。简单地在提示词里加一句“别泄露信息”收效甚微,甚至让模型更努力地完成任务时,每个查询携带的上下文更丰富,泄漏反而从34%飙升到51.7%。你没法靠提示词解决这个问题,因为一个信息量更大的查询对任务有利,对隐私却是灾难。

作者提出了PA-DR(隐私感知深度研究)训练方法。核心是两套奖励:一套是情境任务奖励,不按整个轨迹打分,而是把每次模型调用跟同阶段同跳数的调用比较——查对了来源、选对了文档就得分;另一套是学习型隐私奖励,用Qwen3-4B分类器实时评估当前查询是否直接泄漏或与历史查询组合产生马赛克泄漏。两套奖励一起训练,泄漏从34.0%降到9.9%,而任务成功率几乎没掉(从48.7%到58.7%)。更厉害的是,情境奖励的样本效率比传统结果奖励高出5-6倍。

这篇论文真正有价值的地方在于,它把隐私泄漏从一个模糊的担忧变成了一个可测量、可归因、可优化的工程问题。马赛克泄漏不是单次查询的过错,而是累积的查询行为模式。你无法靠规则或提示来防止,但可以靠细粒度的训练信号来压制。未来的Agent系统如果想在真实环境中同时使用私有数据和联网搜索,训练时必须把隐私作为一个显式优化目标,而不是事后补丁。

MosaicLeaks: Can your research agent keep a secret?

查看原文