指标依赖的标注饱和:从标签分布中学习

标注数据不便宜,尤其当标注员之间出现分歧时,这分歧本身就藏着信息。但到底需要多少标注员才能捕获这些信号?这篇论文的核心结论是:答案取决于你最后用什么指标评估模型。

他们用ChaosNLI(每个样本100个标注)训练NLI模型,发现如果目标是让模型学会识别哪些样本容易产生分歧(熵相关),需要20-50个标注;但如果只是让预测分布接近真实分布(KL散度),10个标注就够了,能达到87-95%的效果。

这个发现不是拍脑袋,他们先验证了软标签确实比label smoothing效果好,因为后者无法区分模糊和清晰的样本。

Metric-Dependent Annotation Saturation for Learning from Label Distributions

查看原文