问问基础评测集

数据规模: 610条
数据大小: 610条
应用场景: 大语言模型测试集
数据类型: 文本
最后更新: 2023-11-15 21:11
 
数据简介

动机:(1)市面上的已有评测集存在依赖国外开源数据的问题,翻译过来的题目存在文化bias,涉及语言类的题目缺乏汉语视角,不能忠实反映大语言模型在中国语境中日常问题、日常语言中的表现;(2)市面上的已有评测集中包含大量的语言逻辑题,却未充分体现汉语的特点;(3)市面上的已有评测集分类较为随意,不能有效把握问题反映出来的大模型能力

方法:(1)沿用市面上的已有评测集的框架,同时扩充数据量,对数据不平衡的地方予以微调;(2)在保持新题目与已有评测集的意图、考点对标的基础上,替换掉不符合中国语境、汉语语境的题目,适当提高语言逻辑题的难度,使其充分反映中国国情、汉语情况;(3)独立增加35类分类,方便把握题目背后反映的大模型能力;(4)在实践中剔除、替换存在歧义、模糊难以判断的题目;调整格式,方便大模型识别与输出

能力覆盖性:(1)能力覆盖面对标市面上的已有评测集,不作大动;(2)细化了35类分类,使能力分类更细致,更全面;(3)各个能力下的题目比例保持基本不变,但适当增加中国国情题目、汉语逻辑题目的比重


数据规模:
610条


数据格式:
文本

0相关评论
数据提供方信息查看主页

出门问问信息科技有限公司

出门问问成立于2012年,是一家以生成式AI与语音交互为核心的人工智能公司。
  • 191
更多>本企业其它数据
问问基础评测集

北京人工智能高质量数据集服务平台

创新数据服务,积极推进数据拓展应用

关于我们

联系我们

合作
咨询

15911018798
数据合作联系电话

微信
联系

微信联系