效率工具

每天精选值得关注的 AI 动态

Claude Tag：把AI作为团队成员接入Slack

AI 工具终于不再单打独斗了。Claude Tag 让 Claude 作为团队的一个成员常驻 Slack 频道，共享上下文、异步执行任务、甚至能主动提醒未完成的工作。Anthropic 内部 65% 的代码已经用它生成，不是概念产品，是已经在用的协作方式。

IBM开源了CUGA智能体运行环境，终于有人把脏活扛了。你只要写工具列表和提示词，规划、状态、安全策略全内置。两打单文件应用直接可跑，还有从笔记本到生产治理的一条路——这才是做智能体的务实姿势。

Hugging Face 把发布周期从 6 周缩短到每周，靠的不是纯AI自动化，而是一个聪明的“AI起草 + 代码校验 + 人工定稿”流水线。关键是那个确定性校验环节，确保模型生成的内容没遗漏、没虚构。整套方案只用开源工具，每次成本才两毛五。

Gray Swan 两位联合创始人详解为什么 AI Agent 的安全和传统网络安全完全不同。他们展示了自己训练的 AI 系统已经能比人类更高效地破解 GPT-4 和 Claude，并提出“致命三要素”来判断你的 Agent 是否已经敞开了数据大门。

很多AI教程只教你怎么写单次prompt，但这篇文章告诉你当任务要跑几小时甚至几天时该怎么维持上下文不断裂。它把Codex当工作台用，核心是拆解出可验证的小步骤、设检查点、并明确什么时候该让人来判断。很务实的一套协作手册，适合每个被长任务搞崩溃的人。

深度研究Agent在查询外部网络时会通过碎片化查询泄露私有信息，马赛克效应防不胜防。作者用情境奖励和隐私奖励训练，把泄漏从34%压到9.9%，任务性能几乎不变——隐私不是prompt能解决的，得靠训练。

这次对话真正有价值的地方在于，Rody Davis把AI Agent的瓶颈从代码生成转向了上下文管理。他提出Skill这个概念，相当于给模型做了个快速查找表，直接绕过模型在大段文档里翻找的延时。

传统基准只看最终答案，但代理在实际使用中的成本（时间、令牌、错误）才是关键。Hugging Face用transformers案例展示了全轨迹评估如何量化改动对代理的影响：同样的CLI+Skill改进，对强模型省时，却让弱模型更费力。任何库维护者都该看看这个框架。

Radical AI 用自我驾驶实验室 6 个月造出 1200 种合金，比 DARPA 最佳项目快 10 倍。创始人 Joseph Krause 为何坚持实验比模型更重要，为什么材料科学不会有 AlphaFold 时刻，以及中美在材料上的竞争真相。