目录
传统的自然语言处理评估指标
EM(Exact Match)
BLEU(Bilingual Evaluation Understudy)
传统的自然语言处理评估指标
- 传统评估指标
-
EM(Exact Match)
- 计算方式:如果生成的答案与参考答案完全相同(字符级完全匹配),则 EM 得分为 1,否则为 0。这是一种比较严格的评估指标。
- 举例:问题是 “太阳从哪边升起?”,参考答案是 “太阳从东边升起”。如果生成的答案是 “太阳从东边升起”,则 EM = 1;如果答案是 “太阳升起的方向是东”,则 EM = 0。
-