标注数据不便宜，尤其当标注员之间出现分歧时，这分歧本身就藏着信息。但到底需要多少标注员才能捕获这些信号？这篇论文的核心结论是：答案取决于你最后用什么指标评估模型。

他们用ChaosNLI（每个样本100个标注）训练NLI模型，发现如果目标是让模型学会识别哪些样本容易产生分歧（熵相关），需要20-50个标注；但如果只是让预测分布接近真实分布（KL散度），10个标注就够了，能达到87-95%的效果。

这个发现不是拍脑袋，他们先验证了软标签确实比label smoothing效果好，因为后者无法区分模糊和清晰的样本。

指标依赖的标注饱和：从标签分布中学习