haonan-li / cmmlu Goto Github PK

View Code? Open in Web Editor NEW

649.0 649.0 43.0 4.19 MB

CMMLU: Measuring massive multitask language understanding in Chinese

Shell 20.13% Python 79.87%

cmmlu's People

Contributors

Stargazers

Watchers

cmmlu's Issues

[Feature] Support CMMLU in OpenCompass

Hi,
We are the OpenCompass Team.
We sincerely welcome you to contribute the CMMLU dataset into OpenCompass codebase and leaderboard.

Our homepage: https://opencompass.org.cn/
Our codebase: https://github.com/internLM/OpenCompass/

logo扇面上没有“world history”世界历史这一主题

在CMMLU/fig/logo.jpg中，只有66个主题，缺少“world history”世界历史这一主题。

是否考虑使用四个选项的概率大小来评估模型？

您好，感谢您的工作。

已有的一些工作（包括MMLU和C-Eval等）一般采用比较四个选项生成概率的方法来测试模型的效果，这种方法更适合一些非API访问的基座模型，是否考虑使用这种方法对已有模型进行评估呢？

AttributeError: 'NoneType' object has no attribute 'replace'

I encountered the following error while using the ChatGPT evaluation script.

Suggestion: Add a null check operation on line 48 of the src/chatgpt.py script to prevent errors caused by an empty pred.

category以及总体average得分的计算逻辑

从榜单上看，CMMLU的得分存在三个层次：总体average的分（平均分），每个category的得分（比如人文学科），还有具体subject的得分（比如food_science.csv）。我想请问总体average的得分，和每个category的得分是怎么计算的呢？是不是按照下面的计算逻辑进行的？

计算逻辑：
先按样本维度计算了每个subject的acc，然后（1）category的得分=属于该category的所有subject的acc的平均值；（2）总体average的得分=所有subject的acc的平均值

ChatGLM2-6b模型用eval精度比eval_chat低，正常吗？

现在chatglm的测试代码里只有eval_chat模式，我试着用eval测了一下，精度会降低1%左右，这个正常吗？

刚开始学习ai，想问问文档的 Five-shot 是 few-shot 吗？

SyntaxError: unmatched ')'

There are syntax errors in this part of the code

【数据错误】huggingface 上的数据加载有一个错误

看csv文件是问题和选项之间少了一个逗号，在世界宗教 world_religions.csv 文件中

Support Qwen-7b

Thanks for your work!
I want to do a comparison between chatglm and qwen,Do you plan to support?

categories.py中name_en2zh、subcategories不是字典升序的

在CMMLU/src/categories.py中，name_en2zh、subcategories两个字典的键值不是按照升序排列的。主要是，其他的键都是升序排列的，只有“computer science”的顺序错误，容易造成误解。

数据集怎么回事

from datasets import load_dataset
cmmlu=load_dataset(r"haonan-li/cmmlu", 'agronomy')
print(cmmlu['test'][0])

{'_data_files': [{'filename': 'data-00000-of-00001.arrow'}], '_fingerprint': '8fd80049c30cf62f', '_format_columns': None, '_format_kwargs': {}, '_format_type': None, '_output_all_columns': False, '_split': 'test'}

请问一下，MILM的测试是如何进行的？

目前好像没有看到MILM的开源模型和代码，请问这个测试是如何进行的

get_results出来的分数有一定随机性

测试结果已经输出成csv了，每次调用get_results出来的分数会随机飘动，这个是正常的吗？

Baichuan-13B-Chat

能否支持评估Baichuan-13B-Chat。望发布代码

cmmlu测试集结果更新

已提交pull request，辛苦审核下

如果用评测集进行训练，是不是可以拿满分，如何防止作弊？

ChatGLM2-6B使用默认参数跑，相比于ChatGLM-6B速度慢5倍以上，不知道是什么原因

支持yi-34b-chat吗？

容易卡主，咋回事

支持llama2吗？

[BUG maybe in few-shot setting]计算模型选择的答案时，对于很多模型代码里实际上比较的是['_A', '_B', '_C', '_D']这四个token的概率，而非['A', 'B', 'C', 'D']的概率

1、在src/mp_utils.py中，这段代码choice_ids = [tokenizer.encode(choice)[-1] for choice in choices]对于很多tokenizer来说，choice_ids 对应的tokens可能并非['A', 'B', 'C', 'D']

llama2-13B tokenizer 执行的结果是

>>> choice_ids = [tokenizer.encode(choice)[-1] for choice in choices]
>>> print(choice_ids)
[319, 350, 315, 360]

>>> tokenizer.convert_ids_to_tokens(choice_ids)
['▁A', '▁B', '▁C', '▁D']

>>> tokenizer.convert_tokens_to_ids(['A', 'B', 'C', 'D'])
[29909, 29933, 29907, 29928]

Baichuan-13B tokenizer 执行的结果是

>>> choice_ids = [tokenizer.encode(choice)[-1] for choice in choices]
>>> print(choice_ids)
[703, 731, 702, 743]

>>> tokenizer.convert_ids_to_tokens(choice_ids)
['▁A', '▁B', '▁C', '▁D']

>>> tokenizer.convert_tokens_to_ids(['A', 'B', 'C', 'D'])
[31132, 31139, 31133, 31140]

这一实现方式在few-shot场景下可能会是问题

def format_example(df, idx, subject, include_answer=True, cot=False):
    ...
    # Chain-of-thought
    if cot:
        prompt += "\n逐步分析并给出答案选项。"
    else:
        prompt += "\n答案是："

    if include_answer:
        prompt += "{}\n\n".format(df.iloc[idx, k + 1])

根据此代码生成的few-shot prompt，以农学12题为例

以下是关于农学的单项选择题，请直接给出正确答案的选项。

题目：肉牛屠宰后，胴体的哪个部位肉质较好
A. 胸
B. 腹
C. 大腿
D. 小腿
答案是：C

...

题目：羊胴体中，肉质较好的部位是
A. 胸下肉
B. 肩胛肉
C. 后腿肉
D. 小腿肉
答案是：C

题目：某周的日均温分别为9°C、9°C、11°C、12°C、13°C、15°C、16°C，则对喜温作物(生物学零度为10°C)来说，这周的活动的积温为
A. 67°C
B. 18°C
C. 85°C
D. 17°C
答案是：

注意无论是例题还是最终问题，答案是：后面都是没有空格的，也就是说我们期望的模型输出应当是['A', 'B', 'C', 'D']4个token之一，而非['_A', '_B', '_C', '_D']这4个token之一。

2、注意到实现方式本身和MMLU官方代码是一致的

>>> flan_tokenizer("A").input_ids
[71, 1]

>>> flan_tokenizer.convert_ids_to_tokens([71, 1])
['▁A', '</s>']

但其构造few-shot examples时，答案前都带有空格

def format_example(df, idx, include_answer=True):
    ...
    prompt += "\nAnswer:"
    if include_answer:
        prompt += " {}\n\n".format(df.iloc[idx, k + 1])
    return prompt

因此预期的模型输出应该为['_A', '_B', '_C', '_D']这4个token之一，这里是没有问题的。

对于zero-shot setting，由于英文通常符号如:后都会跟有空格，所以MMLU的题也没问题。但是对于中文使用中文符号：，后面通常也不会再跟空格，因为它是全角字符。所以可能也有点问题。

3、对于较鲁棒或者本身较强的LLMs来说，可能['_A', '_B', '_C', '_D']和['A', 'B', 'C', 'D']概率排序基本是一致的，相对影响较小，但是对于较弱的LLMs可能会有一定影响。
我只测试了Baichuan-13B，修改前后的分数对比如下：

Subject	对['_A', '_B', '_C', '_D']排序（目前repo的方式）	对['A', 'B', 'C', 'D']排序
STEM	42.38	41.96
Humanities	61.61	60.29
Social Science	60.44	59.32
Other	59.26	58.91
China specific	56.62	56.3
Avg	55.82	55.01

Possible Solution1

最简单的解决方法，肯定是像MMLU那样在构造example 答案时在选项标号前加上空格，但这样其实不够显式，特别是对于不清楚tokenizer内部实现方式的同学来说，自己构造prompt时可能注意不到

Possible Solution2

使用tokenizer.convert_tokens_to_ids()而不用tokenizer.encode()或者tokenizer()，并显式注释提醒，这里我们期望的token就是['A', 'B', 'C', 'D']之一，而不是其他组合token

Anyway，感谢你们的工作和奉献！

每个 csv 文件具体属于哪个 category

请问有开源每个 csv 文件对应的是哪个 category 的 json 文件吗

外部API接口的输入/输出格式和邮箱地址

你好，关于私有模型的外部API接口，有以下问题需要您解答下：

API是一个Model Native的接口吗？即输入任意一个text，输出一个text？
需要我将 few-shot部分包在接口里面吗？
输出的答案如果包含了A，B，C，D以外的部分，删除这多余部分的工作是由我的API自动去除还是你们验证时处理？比如 src 中的部分脚本只取了第一个token是ABCD的置信度，不关心后续多余部分的token。但我的API接口不可能返回给你置信度。
可以提供个邮箱地址，方便我将外部API调用脚本发送至您。

谢谢！

haonan-li / cmmlu Goto Github PK

cmmlu's People

Contributors

Stargazers

Watchers

Forkers

cmmlu's Issues

Possible Solution1

Possible Solution2

Recommend Projects

Recommend Topics

Recommend Org

Jobs