问问基础评测集

数据规模：	610条
数据大小：	610条
应用场景：	大语言模型测试集
数据类型：	文本
最后更新：	2023-11-15 21:11

数据简介

动机：（1）市面上的已有评测集存在依赖国外开源数据的问题，翻译过来的题目存在文化bias，涉及语言类的题目缺乏汉语视角，不能忠实反映大语言模型在中国语境中日常问题、日常语言中的表现；（2）市面上的已有评测集中包含大量的语言逻辑题，却未充分体现汉语的特点；（3）市面上的已有评测集分类较为随意，不能有效把握问题反映出来的大模型能力

方法：（1）沿用市面上的已有评测集的框架，同时扩充数据量，对数据不平衡的地方予以微调；（2）在保持新题目与已有评测集的意图、考点对标的基础上，替换掉不符合中国语境、汉语语境的题目，适当提高语言逻辑题的难度，使其充分反映中国国情、汉语情况；（3）独立增加35类分类，方便把握题目背后反映的大模型能力；（4）在实践中剔除、替换存在歧义、模糊难以判断的题目；调整格式，方便大模型识别与输出

能力覆盖性：（1）能力覆盖面对标市面上的已有评测集，不作大动；（2）细化了35类分类，使能力分类更细致，更全面；（3）各个能力下的题目比例保持基本不变，但适当增加中国国情题目、汉语逻辑题目的比重

 数据规模:
610条

 数据格式：
文本