大模型评测数据集：MMLU、MMCU、C-Eval

面对国内大语言模型万箭齐发的局面，如何更好地提升大语言模型对中文的理解能力，更好地服务于全球的中文用户，甲骨易AI研究院首创性地推出了高质量中文评测数据集——一款名为“超越”(MassiveMultitask ChineseUnderstanding，简称MMCU)的大规模的多任务测试数据集，填补了中文大语言模型能力测试缺失的一大空白。

ChatGPT 的出现，使中文社区意识到与国际领先水平的差距。近期，中文大模型研发如火如荼，但中文评价基准却很少。在OpenAIGPT 系列 / Google PaLM 系列 / DeepMind Chinchilla 系列 / Anthropic Claude 系列的研发过程中，MMLU / MATH / BBH 这三个数据集发挥了至关重要的作用，因为它们比较全面地覆盖了模型各个维度的能力。最值得注意的是 MMLU 这个数据集，它考虑了 57 个学科，从人文到社科到理工多个大类的综合知识能力。DeepMind 的 Gopher 和 Chinchilla 这两个模型甚至只看 MMLU 的分数，因此我们想要构造一个中文的，有足够区分度的，多学科的基准榜单，来辅助开发者们研发中文大模型。我们花了大概三个月的时间，构造了一个覆盖人文，社科，理工，其他专业四个大方向，52 个学科（微积分，线代 …），从中学到大学研究生以及职业考试，一共 13948 道题目的中文知识和推理型测试集，我们管它叫 C-Eval，来帮助中文社区研发大模型。

C-Eval: 构造中文大模型的知识评估基准_数据派THU的博客-CSDN博客

大模型评测数据集：MMLU、MMCU、C-Eval

最新关注

热文推荐

如何在VSCode中带有参数的Debug（name、program、$file、args、pickArgs、指定虚拟环境）

“Web3.0元宇宙，与中国有关”

分布式会话与单点登录SSO系统CAS，包含完整示例代码实现

面试题：在增强 for 循环中为什么删除元素为什么会报错？如果是修改元素，会发生什么？

layui2.9.7-入门初学

Android 知识体系

大模型评测数据集：MMLU、MMCU、C-Eval

相关文章

最新关注

热文推荐