C-EVAL: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models
https://arxiv.org/pdf/2305.08322v1.pdf
https://github.com/SJTU-LIT/ceval
https://cevalbenchmark.com/static/leaderboard.html
Part1 前言
怎么去评估一个大语言模型呢?
- 在广泛的NLP任务上进行评估。
- 在高级LLM能力上进行评估,比如推理、解决困难的数学问题、写代码。
在英文中,已经有不少评测基准:
- 传统英语基准:GLUE,是NLU任务的的评测基准。
- MMLU基准(Hendrycks等人,2021a)提供了从真实世界的考试和书籍中收集的多领域和多任务评价。
- BIG