每天精选值得关注的 AI 动态
GPT-5 Pro 如何破解免疫学家三年未解之谜

免疫学家Unutmaz用一个困扰实验室三年、传统方法无法解释的T细胞分化谜题,验证了GPT-5 Pro的推理能力。AI不仅指出关键蛋白IL-2的作用,还正确预测了未发表的实验结果。这不再是信息检索,而是真正的科学协作。
指标依赖的标注饱和:从标签分布中学习

论文用ChaosNLI的100个标注数据做实验,发现评估目标不同,标注饱和点天差地别:识别样本分歧度需要20-50个标注,但逼近真实分布只需10个。这直接挑战了统一标注预算的做法,对训练软标签模型很有参考价值。
Omio如何用对话式AI重塑旅行规划

Omio不是做了个聊天机器人,而是用OpenAI模型直接把用户的一句自然语言请求,连到全球3000家交通供应商的实时库存和定价上,让对话直接可预订。开发效率还压缩到了原来的20%。这才是AI-native真实的样子。
Daybreak:为全球每个组织提供安全工具

AI让漏洞发现变快,但修补成了新瓶颈。OpenAI的Daybreak项目用GPT-5.5-Cyber模型(CyberGym 85.6%)和Codex Security插件,直接从扫描到生成补丁,配合Patch the Planet开源合作,真正把AI防御能力落地。
提升ChatGPT的健康智能:医生介入的实战路径

OpenAI让260多位医生持续给ChatGPT的健康回答挑错,两个月内问题率降了71%。核心不是模型跑分,而是把医生经验变成了可度量的质检流水线——这对任何高风险AI落地都有实战参考价值。
用真实科研工作流给AI打分:LifeSciBench来了

为什么现有的AI评测测不出模型能不能帮科学家干活?答案在LifeSciBench:一个由173位博士级科学家设计的基准,直接对标真实科研中的多步推理、证据整合和判断决策。结果告诉你,模型在纯文本上还行,一遇到图表和序列文件就掉三成。到底差在哪,看这个就知道。
Databricks 在 token path 上拉大领先优势

Databricks 以80%年增长率拉开与 Snowflake 的距离,AI 产品贡献25% ARR,揭示了“代币路径”增长模式——当 AI 收入占比到一定阈值,增速会指数级放大,即使在大规模下依然有效。
近乎自主的AI化学家成功攻克药物化学中的一个棘手反应

OpenAI联手Molecule.one,让GPT-5.4像一位真实的化学博士后一样工作:独立提出科学猜想、设计实验方案、在自动化实验室里跑完10080个反应、分析数据、再提出下一轮假设。关键结果是,它推荐的TEMPO氧化剂让药物化学中最棘手的磺酰胺基团偶联反应产率翻倍。
MolmoMotion:用语言指导的3D运动预测模型

MolmoMotion用物体表面稀疏3D点预测未来运动轨迹,不依赖物体类别模板,精度远超现有方法。仿真环境机器人任务成功率76.3%,通用性强到可以直接从视频学到物理规律并迁移到机器人控制。核心价值是让AI从看懂过去进化到预判未来。