AI 模型

用真实科研工作流给AI打分:LifeSciBench来了

为什么现有的AI评测测不出模型能不能帮科学家干活?答案在LifeSciBench:一个由173位博士级科学家设计的基准,直接对标真实科研中的多步推理、证据整合和判断决策。结果告诉你,模型在纯文本上还行,一遇到图表和序列文件就掉三成。到底差在哪,看这个就知道。

阅读详情用真实科研工作流给AI打分:LifeSciBench来了