中文高质量大模型预训练文本数据集

数据规模: 1亿篇
数据大小: 500GB
应用场景: 大模型
数据类型: 文本
最后更新: 2023-09-12 23:51
 
数据简介

文本内容涵盖80多个学科领域,进行了准确的标签分类和严格的内容清洗。

数据规模:

1亿篇

数据类型:

txt


0相关评论
数据提供方信息查看主页

数据堂(北京)科技股份有限公司

国内首家上市的人工智能数据服务企业,致力于为AI及大数据领域公司提供训练数据集、数据采集与标注定制服务、标注平台部署等一体化数据解决方案。
  • 287
更多>本企业其它数据
830,276组人人多轮对话文本数据[数据堂] 11,130人真实监控场景下Re-ID数据【数据堂】 110人多种角度光照表情组合人脸图像数据【数据堂】 1,300万组人机对话交互文本数据[数据堂] 178小时中国儿童麦克风语音采集数据【数据堂】 数据堂—35G中文新闻文本数据 759小时印地语手机采集语音数据【数据堂】 240小时印地语手机采集语音数据_朗读【数据堂】

北京人工智能高质量数据集服务平台

创新数据服务,积极推进数据拓展应用

关于我们

联系我们

合作
咨询

15911018798
数据合作联系电话

微信
联系

微信联系