Code Monkey home page Code Monkey logo

xiezhibenchmark's People

Contributors

mikegu721 avatar yixin-zhu avatar zxx000728 avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar

xiezhibenchmark's Issues

数据载入问题

Hi,你好,最近我在跑代码的时候,发现第394行载入数据貌似存在问题:
line 394: options = [opt.strip().strip('"').strip("'") for opt in jsonline['options']]
通过这行代码载入选项的格式如下:
options: ['8', '月', '5', '日', '', '8', '月', '1', '0', '日', '', '8', '月', '1', '2', '日', '', '8', '月', '1', '5', '日', '', '']

正确的载入格式应该是:
options: ['8月5日', '8月10日', '8月12日', '8月15日']

可以通过修改代码为:options = options.rstrip('\r\n').strip('"').split('\n')

数据载入不全问题

您好!在使用各个数据集评测的时候,发现如何修改sample_num,评测的数据总量都不会改变:

对于代码:
!python model_test.py
--sample_num=1000
--model_name=THUDM/chatglm2-6b
--options_num=4
--few_shot=0
--task=xiezhi_inter_chn
--metric=mrr
--model_cache_dir=/home/starglm/.cache/huggingface/hub

运行的结果是:
[2023-09-01 10:20:23,229] [INFO] [real_accelerator.py:133:get_accelerator] Setting ds_accelerator to cuda (auto detect)

You're using task: xiezhi_inter_chn

Mission UID: THUDMchatglm2-6b_None_xiezhi_inter_chn_0_4_42

Loading checkpoint shards: 100%|██████████████████| 7/7 [00:09<00:00, 1.29s/it]
reading data, construct answer dataset: 100%|█| 119/119 [00:00<00:00, 1422000.50
reading data, construct infer dataset: 100%|█| 119/119 [00:00<00:00, 160799.67it
12.345004796981812

Start From 476 Sample

Samples Number: 0

infering on task: xiezhi_inter_chn in 0-shot setting: 0it [00:00, ?it/s]
reading data, construct answer dataset: 100%|█| 119/119 [00:00<00:00, 1545269.89
12.456671714782715

Label Number: 71

verifying: 100%|██████████████████████████| 119/119 [00:00<00:00, 139770.98it/s]
历史学 {'mean': 0.33620689655172414, 'std': 0.41435147511898696, 'num': 87}
文学 {'mean': 0.13888888888888887, 'std': 0.2022252747022366, 'num': 12}
**史 {'mean': 0.4583333333333333, 'std': 0.414578098794425, 'num': 16}
语言文学 {'mean': 0.25, 'std': 0.25, 'num': 2}
艺术学 {'mean': 0.1111111111111111, 'std': 0.15713484026367722, 'num': 3}
语言学及应用语言学 {'mean': 0.3333333333333333, 'std': 0.0, 'num': 1}
**语言文学 {'mean': 0.1111111111111111, 'std': 0.15713484026367722, 'num': 3}
教育学 {'mean': 0.375, 'std': 0.414578098794425, 'num': 4}
心理学 {'mean': 0.0, 'std': 0.0, 'num': 1}
发展与教育心理学 {'mean': 0.0, 'std': 0.0, 'num': 1}
农业资源利用 {'mean': 0.0, 'std': 0.0, 'num': 1}
作物学 {'mean': 0.0, 'std': 0.0, 'num': 1}
农学 {'mean': 0.5, 'std': 0.5, 'num': 2}
理学 {'mean': 0.33541666666666664, 'std': 0.3884117857091592, 'num': 40}
人文地理学 {'mean': 0.25, 'std': 0.25, 'num': 2}
地理学 {'mean': 0.2791666666666667, 'std': 0.36158889332746075, 'num': 20}
力学 {'mean': 0.0, 'std': 0.0, 'num': 1}
物理学 {'mean': 0.25, 'std': 0.25, 'num': 2}
工学 {'mean': 0.2692307692307692, 'std': 0.3728984505704869, 'num': 13}
数学 {'mean': 0.5, 'std': 0.3872983346207417, 'num': 10}
汉语言文字学 {'mean': 0.0, 'std': 0.0, 'num': 1}
哲学 {'mean': 0.20588235294117646, 'std': 0.3347001963747365, 'num': 17}
法学理论 {'mean': 0.0, 'std': 0.0, 'num': 1}
法学 {'mean': 0.36481481481481476, 'std': 0.41954152257343647, 'num': 45}
法学(1级学科) {'mean': 0.0, 'std': 0.0, 'num': 1}
食品科学 {'mean': 0.25, 'std': 0.25, 'num': 2}
食品科学与工程 {'mean': 0.25, 'std': 0.25, 'num': 2}
植物学 {'mean': 0.0, 'std': 0.0, 'num': 1}
生物学 {'mean': 0.08333333333333333, 'std': 0.1863389981249825, 'num': 6}
**古代史 {'mean': 0.3111111111111111, 'std': 0.42214911647806375, 'num': 45}
历史学(1级学科) {'mean': 0.34967320261437906, 'std': 0.43160149400863296, 'num': 51}
地图学与地理信息系统 {'mean': 1.0, 'std': 0.0, 'num': 1}
历史地理学 {'mean': 0.2857142857142857, 'std': 0.45175395145262565, 'num': 7}
测绘科学与技术 {'mean': 0.0, 'std': 0.0, 'num': 1}
地图制图学与地理信息工程 {'mean': 0.0, 'std': 0.0, 'num': 1}
医学 {'mean': 0.0, 'std': 0.0, 'num': 1}
中药学 {'mean': 0.0, 'std': 0.0, 'num': 1}
体育学 {'mean': 0.75, 'std': 0.25, 'num': 2}
政治学 {'mean': 0.3729166666666667, 'std': 0.42121991320185437, 'num': 40}
经济学 {'mean': 0.4275362318840579, 'std': 0.42513449692384436, 'num': 23}
社会学 {'mean': 0.3, 'std': 0.39999999999999997, 'num': 5}
政治学理论 {'mean': 0.2962962962962963, 'std': 0.4017921102545765, 'num': 18}
土木工程 {'mean': 0.0, 'std': 0.0, 'num': 3}
防灾减灾工程及防护工程 {'mean': 0.0, 'std': 0.0, 'num': 3}
化学 {'mean': 0.0, 'std': 0.0, 'num': 1}
生态学 {'mean': 0.0, 'std': 0.0, 'num': 4}
环境科学与工程 {'mean': 0.3333333333333333, 'std': 0.4714045207910317, 'num': 3}
环境科学 {'mean': 0.3333333333333333, 'std': 0.4714045207910317, 'num': 3}
马克思主义理论与**政治教育 {'mean': 0.0, 'std': 0.0, 'num': 1}
**哲学 {'mean': 0.2916666666666667, 'std': 0.3656235161413384, 'num': 6}
哲学(1级学科) {'mean': 0.175, 'std': 0.317214438511238, 'num': 10}
国防经济 {'mean': 0.0, 'std': 0.0, 'num': 1}
应用经济学 {'mean': 0.5925925925925926, 'std': 0.40147191460516296, 'num': 9}
政治经济学 {'mean': 0.1875, 'std': 0.34798527267687634, 'num': 8}
理论经济学 {'mean': 0.1875, 'std': 0.34798527267687634, 'num': 8}
国际政治 {'mean': 1.0, 'std': 0.0, 'num': 1}
考古学 {'mean': 0.3055555555555555, 'std': 0.3653596232768307, 'num': 6}
统计学 {'mean': 0.6666666666666667, 'std': 0.36324157862838946, 'num': 8}
考古学及博物馆学 {'mean': 0.0, 'std': 0.0, 'num': 1}
历史文献学 {'mean': 0.0, 'std': 0.0, 'num': 2}
国际关系 {'mean': 0.75, 'std': 0.25, 'num': 2}
宗教学 {'mean': 0.0, 'std': 0.0, 'num': 1}
人类学 {'mean': 0.375, 'std': 0.414578098794425, 'num': 4}
逻辑学 {'mean': 0.0, 'std': 0.0, 'num': 4}
军事学 {'mean': 0.5, 'std': 0.5, 'num': 2}
水利工程 {'mean': 1.0, 'std': 0.0, 'num': 1}
史学理论及史学史 {'mean': 0.0, 'std': 0.0, 'num': 1}
管理学 {'mean': 1.0, 'std': 0.0, 'num': 1}
战役学 {'mean': 0.0, 'std': 0.0, 'num': 1}
战略学 {'mean': 0.0, 'std': 0.0, 'num': 1}
战争动员学 {'mean': 0.0, 'std': 0.0, 'num': 1}
OVERALL {'mean': 0.3375350140056022, 'std': 0.40993849876571076}

只用了其中119个数据,和sample_num对不上,而且怎么修改也没有变化

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.