CMMLU---中文多任务语言理解评估

简体中文 | English

简介

CMMLU是一个综合性的中文评估基准，专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括：需要计算和推理的自然科学，需要知识的人文科学和社会科学,以及需要生活常识的**驾驶规则等。此外，CMMLU中的许多任务具有**特定的答案，可能在其他地区或语言中并不普遍适用。因此是一个完全**化的中文测试基准。

排行榜

Note 本测试集的目标在于展示中文大模型的部分能力，以帮助社区更好地了解其表现。考虑到测试形式的限制，并为确保测试的公平性与透明度，我们决定将已经开源或提供开放API的模型与尚未开源或未提供开放API的模型分别列在榜单中。

以下表格显示了模型在 five-shot 和 zero-shot 测试下的表现。

Five-shot

模型	STEM	人文学科	社会科学	其他	**特定主题	平均分
开放测试的模型
XuanYuan-70B	60.74	77.79	75.47	70.81	70.92	71.10
GPT4	65.23	72.11	72.06	74.79	66.12	70.95
XuanYuan-13B	50.07	66.32	64.11	59.99	60.55	60.05
Qwen-7B	48.39	63.77	61.22	62.14	58.73	58.66
ZhiLu-13B	44.26	61.54	60.25	61.14	57.14	57.16
ChatGPT	47.81	55.68	56.50	62.66	50.69	55.51
Baichuan-13B	42.38	61.61	60.44	59.26	56.62	55.82
ChatGLM2-6B	42.55	50.98	50.99	50.80	48.37	48.80
Baichuan-7B	35.25	48.07	47.88	46.61	44.14	44.43
Falcon-40B	33.33	43.46	44.28	44.75	39.46	41.45
LLaMA-65B	34.47	40.24	41.55	42.88	37.00	39.80
ChatGLM-6B	32.35	39.22	39.65	38.62	37.70	37.48
BatGPT-15B	34.96	35.45	36.31	42.14	37.89	37.16
BLOOMZ-7B	30.56	39.10	38.59	40.32	37.15	37.04
Chinese-LLaMA-13B	27.12	33.18	34.87	35.10	32.97	32.63
Bactrian-LLaMA-13B	27.52	32.47	32.27	35.77	31.56	31.88
MOSS-SFT-16B	27.23	30.41	28.84	32.56	28.68	29.57
尚未开放测试的模型
ZW-LM	72.68	85.84	83.61	85.68	82.71	81.73
QuarkLLM	70.97	85.20	82.88	82.71	81.12	80.27
vivoLM-7B	61.84	83.16	78.94	80.75	78.34	75.82
Galaxy	69.61	74.95	78.54	77.93	73.99	74.03
KwaiYii-66B	56.70	79.43	72.84	74.43	71.11	71.12
Mengzi-7B	49.59	75.27	71.36	70.52	69.23	66.41
KwaiYii-13B	46.54	69.22	64.49	65.09	63.10	61.73
MiLM-6B	46.85	61.12	61.68	58.84	59.39	57.17
MiLM-1.3B	35.59	49.58	49.03	47.56	48.17	45.39
Random	25.00	25.00	25.00	25.00	25.00	25.00

Zero-shot

模型	STEM	人文学科	社会科学	其他	**特定主题	平均分
开放测试的模型
XuanYuan-70B	61.21	76.25	74.44	70.67	69.35	70.59
GPT4	63.16	69.19	70.26	73.16	63.47	68.90
XuanYuan-13B	50.22	67.55	63.85	61.17	61.50	60.51
Qwen-7B	46.33	62.54	60.48	61.72	58.77	57.57
ZhiLu-13B	43.53	61.60	61.40	60.15	58.97	57.14
ChatGPT	44.80	53.61	54.22	59.95	49.74	53.22
Baichuan-13B	42.04	60.49	59.55	56.60	55.72	54.63
ChatGLM2-6B	41.28	52.85	53.37	52.24	50.58	49.95
BLOOMZ-7B	33.03	45.74	45.74	46.25	41.58	42.80
Baichuan-7B	32.79	44.43	46.78	44.79	43.11	42.33
ChatGLM-6B	32.22	42.91	44.81	42.60	41.93	40.79
BatGPT-15B	33.72	36.53	38.07	46.94	38.32	38.51
Falcon-40B	31.11	41.30	40.87	40.61	36.05	38.50
LLaMA-65B	31.09	34.45	36.05	37.94	32.89	34.88
Bactrian-LLaMA-13B	26.46	29.36	31.81	31.55	29.17	30.06
Chinese-LLaMA-13B	26.76	26.57	27.42	28.33	26.73	27.34
MOSS-SFT-16B	25.68	26.35	27.21	27.92	26.70	26.88
尚未开放测试的模型
QuarkLLM	67.23	81.69	79.47	80.74	77.00	77.08
vivoLM-7B	62.30	83.99	79.29	80.40	78.73	76.14
Galaxy	69.38	75.33	78.27	78.19	73.25	73.85
ZW-LM	63.93	77.95	76.28	72.99	72.94	72.74
KwaiYii-66B	55.20	77.10	71.74	73.30	71.27	69.96
Mengzi-7B	49.49	75.84	72.32	70.87	70.00	66.88
KwaiYii-13B	46.82	69.35	63.42	64.02	63.26	61.22
MiLM-6B	48.88	63.49	66.20	62.14	62.07	60.37
MiLM-1.3B	40.51	54.82	54.15	53.99	52.26	50.79
Random	25.00	25.00	25.00	25.00	25.00	25.00

如何提交测试结果

对于开源或开放API的模型，可直接提交拉取请求（可以选择同时在src目录下更新测试代码）。
如模型为开源或开放公测，请将数据更新在尚未开放测试的模型，并提交拉取请求。

数据

我们根据每个主题在data目录中提供了开发和测试数据集。您也可以通过Hugging Face或取我们的数据。

快速使用

我们的数据集已经添加到 lm-evaluation-harness 和 OpenCompass 中，您可以通过这些开源平台快速测试。

数据格式

数据集中的每个问题都是一个多项选择题，有4个选项，只有一个选项是正确答案。数据以逗号分隔的.csv文件形式存在。示例：

    同一物种的两类细胞各产生一种分泌蛋白，组成这两种蛋白质的各种氨基酸含量相同，但排列顺序不同。其原因是参与这两种蛋白质合成的,tRNA种类不同,同一密码子所决定的氨基酸不同,mRNA碱基序列不同,核糖体成分不同,C

提示

我们在src/mp_utils目录中提供了预处理代码。其中包括我们用于生成直接回答提示和思路链 (COT) 提示的方法。

以下是添加直接回答提示后的数据示例：

    以下是关于(高中生物)的单项选择题，请直接给出正确答案的选项。
    题目：同一物种的两类细胞各产生一种分泌蛋白，组成这两种蛋白质的各种氨基酸含量相同，但排列顺序不同。其原因是参与这两种蛋白质合成的：
    A. tRNA种类不同
    B. 同一密码子所决定的氨基酸不同
    C. mRNA碱基序列不同
    D. 核糖体成分不同
    答案是：C

    ... [其他例子] 

    题目：某种植物病毒V是通过稻飞虱吸食水稻汁液在水稻间传播的。稻田中青蛙数量的增加可减少该病毒在水稻间的传播。下列叙述正确的是：
   
    A. 青蛙与稻飞虱是捕食关系
    B. 水稻和病毒V是互利共生关系
    C. 病毒V与青蛙是寄生关系
    D. 水稻与青蛙是竞争关系
    答案是：

对于思路链提示，我们将提示从“请直接给出正确答案的选项”修改为“逐步分析并选出正确答案”。

评估

我们使用的每个模型的评估代码位于src中，运行它们的代码列在script目录中。

引用

@misc{li2023cmmlu,
      title={CMMLU: Measuring massive multitask language understanding in Chinese}, 
      author={Haonan Li and Yixuan Zhang and Fajri Koto and Yifei Yang and Hai Zhao and Yeyun Gong and Nan Duan and Timothy Baldwin},
      year={2023},
      eprint={2306.09212},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

许可证

CMMLU数据集采用 Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.

wonderseen / cmmlu Goto Github PK

cmmlu's Introduction

CMMLU---中文多任务语言理解评估

简体中文 | English

简介

排行榜

Five-shot

Zero-shot

如何提交测试结果

数据

快速使用

数据格式

提示

评估

引用

许可证

cmmlu's People

Contributors

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent