动机:(1)市面上的已有评测集存在依赖国外开源数据的问题,翻译过来的题目存在文化bias,涉及语言类的题目缺乏汉语视角,不能忠实反映大语言模型在中国语境中日常问题、日常语言中的表现;(2)市面上的已有评测集中包含大量的语言逻辑题,却未充分体现汉语的特点;(3)市面上的已有评测集分类较为随意,不能有效把握问题反映出来的大模型能力
方法:(1)沿用市面上的已有评测集的框架,同时扩充数据量,对数据不平衡的地方予以微调;(2)在保持新题目与已有评测集的意图、考点对标的基础上,替换掉不符合中国语境、汉语语境的题目,适当提高语言逻辑题的难度,使其充分反映中国国情、汉语情况;(3)独立增加35类分类,方便把握题目背后反映的大模型能力;(4)在实践中剔除、替换存在歧义、模糊难以判断的题目;调整格式,方便大模型识别与输出
能力覆盖性:(1)能力覆盖面对标市面上的已有评测集,不作大动;(2)细化了35类分类,使能力分类更细致,更全面;(3)各个能力下的题目比例保持基本不变,但适当增加中国国情题目、汉语逻辑题目的比重
数据规模:
610条
数据格式:
文本