AI 模型

GPT-5 Pro 如何破解免疫学家三年未解之谜

免疫学家Unutmaz用一个困扰实验室三年、传统方法无法解释的T细胞分化谜题，验证了GPT-5 Pro的推理能力。AI不仅指出关键蛋白IL-2的作用，还正确预测了未发表的实验结果。这不再是信息检索，而是真正的科学协作。

论文用ChaosNLI的100个标注数据做实验，发现评估目标不同，标注饱和点天差地别：识别样本分歧度需要20-50个标注，但逼近真实分布只需10个。这直接挑战了统一标注预算的做法，对训练软标签模型很有参考价值。

电信行业有张自己的“考卷”，通用大模型几乎得零分。GSMA和AT&T用谷歌的Gemma开源模型做了一次教科书式的示范：用行业私域数据微调出的小模型，准确率碾压通用巨无霸，还把幻觉控制住了。这条路径对所有垂直行业都有直接参考价值。

Ronak Malde 之前在 Windsurf 做 AI coding agent，公司被 Google DeepMind 收购后，他创立了 Trajectory.ai，目标是让企业 AI 系统在生产中持续学习，而不是一次训练就放着不管。

波士顿儿童医院和哈佛用OpenAI o3模型重新分析了376个多年未解开的罕见病基因病例，新增了18个诊断（提高4.8%）。模型不是直接诊断，而是生成带证据链的假设让专家审查。这告诉我们，AI最实用的价值不是替代医生，而是帮专家在旧数据中系统性地挖出新答案。

LoRA 几乎垄断了参数高效微调，但 Hugging Face 的公平基准测试发现，它并非总是最优——尤其在图像生成任务上被 OFT 完全碾压，性能和内存都更好。更关键的是，PEFT 库能一键切换技术并兼容下游服务，别再做默认选项的奴隶。

为什么现有的AI评测测不出模型能不能帮科学家干活？答案在LifeSciBench：一个由173位博士级科学家设计的基准，直接对标真实科研中的多步推理、证据整合和判断决策。结果告诉你，模型在纯文本上还行，一遇到图表和序列文件就掉三成。到底差在哪，看这个就知道。

MolmoMotion用物体表面稀疏3D点预测未来运动轨迹，不依赖物体类别模板，精度远超现有方法。仿真环境机器人任务成功率76.3%，通用性强到可以直接从视频学到物理规律并迁移到机器人控制。核心价值是让AI从看懂过去进化到预判未来。

GLM-5.2把1M上下文窗口真正做成了可工程化使用的稳定基座，而不是营销噱头。通过在架构上用IndexShare将计算量降2.9倍，在训练里加入反作弊模块防奖励欺骗，它在长程编程基准上成绩仅次于Claude Opus 4.8，是开源模型里最强的。