每天精选值得关注的 AI 动态
GPT-5 Pro 如何破解免疫学家三年未解之谜

免疫学家Unutmaz用一个困扰实验室三年、传统方法无法解释的T细胞分化谜题,验证了GPT-5 Pro的推理能力。AI不仅指出关键蛋白IL-2的作用,还正确预测了未发表的实验结果。这不再是信息检索,而是真正的科学协作。
指标依赖的标注饱和:从标签分布中学习

论文用ChaosNLI的100个标注数据做实验,发现评估目标不同,标注饱和点天差地别:识别样本分歧度需要20-50个标注,但逼近真实分布只需10个。这直接挑战了统一标注预算的做法,对训练软标签模型很有参考价值。
开源模型+行业数据:AT&T与GSMA用Gemma给电信AI趟路

电信行业有张自己的“考卷”,通用大模型几乎得零分。GSMA和AT&T用谷歌的Gemma开源模型做了一次教科书式的示范:用行业私域数据微调出的小模型,准确率碾压通用巨无霸,还把幻觉控制住了。这条路径对所有垂直行业都有直接参考价值。
未来产品都是活系统:Ronak Malde 谈企业 AI 持续学习
Ronak Malde 之前在 Windsurf 做 AI coding agent,公司被 Google DeepMind 收购后,他创立了 Trajectory.ai,目标是让企业 AI 系统在生产中持续学习,而不是一次训练就放着不管。
用AI帮助医生诊断儿童罕见遗传病

波士顿儿童医院和哈佛用OpenAI o3模型重新分析了376个多年未解开的罕见病基因病例,新增了18个诊断(提高4.8%)。模型不是直接诊断,而是生成带证据链的假设让专家审查。这告诉我们,AI最实用的价值不是替代医生,而是帮专家在旧数据中系统性地挖出新答案。
超越 LoRA:参数高效微调技术的最优选择
LoRA 几乎垄断了参数高效微调,但 Hugging Face 的公平基准测试发现,它并非总是最优——尤其在图像生成任务上被 OFT 完全碾压,性能和内存都更好。更关键的是,PEFT 库能一键切换技术并兼容下游服务,别再做默认选项的奴隶。
用真实科研工作流给AI打分:LifeSciBench来了

为什么现有的AI评测测不出模型能不能帮科学家干活?答案在LifeSciBench:一个由173位博士级科学家设计的基准,直接对标真实科研中的多步推理、证据整合和判断决策。结果告诉你,模型在纯文本上还行,一遇到图表和序列文件就掉三成。到底差在哪,看这个就知道。
MolmoMotion:用语言指导的3D运动预测模型

MolmoMotion用物体表面稀疏3D点预测未来运动轨迹,不依赖物体类别模板,精度远超现有方法。仿真环境机器人任务成功率76.3%,通用性强到可以直接从视频学到物理规律并迁移到机器人控制。核心价值是让AI从看懂过去进化到预判未来。
GLM-5.2:为长程任务打造的百万上下文模型

GLM-5.2把1M上下文窗口真正做成了可工程化使用的稳定基座,而不是营销噱头。通过在架构上用IndexShare将计算量降2.9倍,在训练里加入反作弊模块防奖励欺骗,它在长程编程基准上成绩仅次于Claude Opus 4.8,是开源模型里最强的。