首页
人工智能高质量数据集
数据提供方
手机版
选择频道搜索
人工智能高质量数据集
数据提供方
首页
>
人工智能高质量数据集
>
搜索
您可以
或
中文
大模型垂直领域图像描述数据集
14万张图像,图像内容包括但不限于人脸、车辆、人体行为、手势、
中文
OCR、场景、监控人体。每张图像配备一段详细
中文
文本描述。
2023-11-15 19:27
应用场景:大模型图文生成
数据堂(北京)科技股份有限公司
35G
中文
大模型安全性评测数据集
中文
大模型需符合国家相关安全法规要求,本数据集包括政治、暴力、色情、脏话、诱导等多类do-not-answer问题,用于评测和提升大
2023-11-15 19:27
应用场景:大模型评测
数据堂(北京)科技股份有限公司
100MB
语音复刻大模型高品质数据集-
中文
本数据集招募了18226名说话者,男女近似1比1。语料覆盖领域多样,包含了对话、唤醒词、控制命令、数字串、新闻论坛、书面语。所
2023-11-15 19:43
应用场景:通用语音大模型
北京晴数智慧科技有限公司
2.6 TB
中文
千万轮对话语料库 DOTS-NLP-216
数据集构成:真实场景对话采集,高度还原真实场景的模拟对话。兼顾分布的代表性、多样性和样本规模。覆盖领域:工作、生活、校园
2023-09-12 23:50
应用场景:语料语义
北京海天瑞声科技股份有限公司
4G
中文
高质量大模型预训练文本数据集
文本内容涵盖80多个学科领域,进行了准确的标签分类和严格的内容清洗。数据规模:1亿篇数据类型:txt
2023-09-12 23:51
应用场景:大模型
数据堂(北京)科技股份有限公司
500GB
大模型
中文
千万轮对话数据集
该数据集是一个上千万轮的双人对话的高质量工程化数据集,覆盖金融、教育、客服等行业和场景,用于大模型的训练和调优。数据规模
2023-09-12 23:52
应用场景:大模型
北京海天瑞声科技股份有限公司
2GB
中文
医学术语集
中文
医学术语集是阿里健康组织国内一流专家学者审核、全流程严格实施三审三校机制、采用本体论、基于机器可读概念模型研发的
中文
2023-09-03 13:47
应用场景:医学
阿里健康科技(北京)有限公司
346.3M
超大规模
中文
多领域高质量多轮对话数据集
15w小时,5千万轮多领域自然式人人对话数据集,可显著优化
中文
多轮交互自然效果。数据规模:15w小时数据格式:wav
2023-09-02 19:47
应用场景:人机对话
北京晴数智慧科技有限公司
18TB
20.1小时
中文
男声客服合成库【数据堂】
格式48kHz,16bit,wav,单声道录音环境专业录音棚环境录音内容客服场景的录音文本,音节音素音调都进行了平衡覆盖人员男性,20~
2024-02-23 14:53
应用场景:语音合成
数据堂(北京)科技股份有限公司
20.1
10,000条
中文
新闻事件标注数据【数据堂】
数据规模1万采集时间2,013年5月数据内容新闻事件标注存储格式xml标注内容事件词语标注数据类别事件提取;舆情监测
2024-02-23 15:28
应用场景:可用于自然语言理解等任务。
数据堂(北京)科技股份有限公司
10,000条
12.6小时
中文
女声对话式客服合成库【数据堂】
格式48kHz,24bit,wav,单声道录音环境专业录音棚环境录音内容模拟电信场景的自然对话人员女性,20~30岁,声音甜美设备专业录音
2024-02-23 14:53
应用场景:语音合成
数据堂(北京)科技股份有限公司
12.6小时
222,289张
中文
自然场景OCR数据【数据堂】
数据规模222,289张图像采集环境包括室内场景和室外场景采集多样性多种场景、多种拍摄角度采集设备手机、相机拍摄角度仰视、俯视
2024-02-23 15:06
应用场景:可用于自然场景OCR任务
数据堂(北京)科技股份有限公司
222,289张
13.8小时
中文
女声情感合成库【数据堂】
格式48kHz,24bit,wav,单声道录音环境专业录音棚环境录音内容六种情感(高兴、愤怒、悲哀、惊讶、恐惧、厌恶)人员女性,20~30
2024-02-23 14:53
应用场景:语音合成
数据堂(北京)科技股份有限公司
13.8小时
5万条
中文
社交评论类句法标注数据【数据堂】
数据规模53,097条
中文
微博句子数据内容
中文
微博句法树库存储格式conv语言
中文
标注内容北大人民日报标准、哈工大依存句法标注规范
2024-02-23 15:27
应用场景:可用于自然语言理解研究等任务,该数据可用于自然语言理解等任务。
数据堂(北京)科技股份有限公司
5万条
8,178条
中文
社交评论类事件标注数据【数据堂】
数据规模8,178条数据内容
中文
社交评论类事件标注数据存储格式xml语言
中文
标注内容事件词语标注数据类别社交评论类事件标注
2024-02-23 15:27
应用场景:可用于自然语言理解等任务。
数据堂(北京)科技股份有限公司
8,178条
200人
中文
手机采集语音数据【数据堂】
格式16kHz,16bit,未压缩wav,单声道录音环境安静环境;噪音环境录音内容口语化句子人员200名中国人,其中女性占比53%设备荣耀h
2024-02-23 15:37
应用场景:语音识别;声纹识别
数据堂(北京)科技股份有限公司
200人
数据堂—35G
中文
新闻文本数据
数据内容新闻类数据数据规模35G左右采集内容带有ID、新闻时间、新闻标题和新闻内容的文本数据采集时间1,991/2/25 - 2,017/7/8存
2024-02-23 15:41
应用场景:可用于大型语言模型(LLM)训练、chatgpt等任务
数据堂(北京)科技股份有限公司
35G左右
相关搜索
在
数据提供方
找 中文
在
资讯
找 中文
在
产业范例库
找 中文
在
北京市通用人工智能产业创新伙伴计划
找 中文
您是不是在找?
约2条
中文大模型
今日排行
13条
1
图片
11条
2
环境
2条
3
电商
2条
4
产业链数据集
13条
5
图像
184条
6
数据堂
18条
7
中文
3条
8
评测数据集
4条
9
科学
本周排行
13条
1
图片数据集
2条
2
多轮对话
5条
3
多模态
13条
4
图片
2条
5
政策数据集
2条
6
科技
11条
7
语料
4条
8
农业
16条
9
视频
本月排行
13条
1
图片数据集
2条
2
多轮对话
5条
3
多模态
13条
4
图片
2条
5
政策数据集
2条
6
科技
11条
7
语料
4条
8
农业
16条
9
视频
北京人工智能高质量数据集服务平台
创新数据服务,积极推进数据拓展应用
关于我们
・
北京人工智能高质量数据服务平台简介
・
网站法律声明及隐私权政策
联系我们
・留言:
提交反馈/留言
・合作:15911018798
©2020-2023 北京人工智能数据标注库平台 北京人工智能高质量数据集服务平台 SYSTEM All Rights Reserved
指导单位:
北京市经济和信息化局数字经济专班
北京人工智能产业联盟
运营单位:
北京帕依提提科技有限公司
京ICP备2022014932号-1
合作
咨询
15911018798
数据合作联系电话
微信
联系
微信联系