首页
人工智能高质量数据集
数据提供方
手机版
选择频道搜索
人工智能高质量数据集
数据提供方
首页
>
人工智能高质量数据集
>
自然语言处理
按行业查看
大模型
(37)
金融
(7)
医疗
(9)
交通
(6)
工业
(2)
太空探索
(0)
通信
(1)
医药
(6)
安防
(2)
农业
(4)
林业
(1)
建筑业
(4)
零售业
(0)
餐饮业
(1)
旅游业
(1)
环境与地理
(9)
人文历史
(0)
教育业
(5)
体育业
(2)
房地产业
(0)
酒店与住宿
(0)
家居生活
(5)
计算机科学
(3)
人物形态
(45)
机器视觉
(27)
自然语言处理
(22)
游戏动漫
(0)
能源电力
(0)
生物微生物
(0)
语音识别
(77)
动物识别
(3)
商业信息
(8)
您可以
或
更新时间
1天内
3天内
7天内
15天内
30天内
舆情数据集
涵盖新闻、短视频、微博、微信、APP、自媒体等媒体渠道,每天采集入库的泛舆情数据超过1亿条,在此基础上,精细化数据维度,打标
2023-11-15 19:27
应用场景:舆情
拓尔思信息技术股份有限公司
200T
全网实时舆情数据与社交媒体数据
中国互联网上公开数据,包含:新闻网站、微信公众号,知乎、天涯、小红书等论坛,抖音快手等短视频平台,资讯类APP等全平台文本
2024-05-13 14:04
应用场景:舆情、新闻资讯
北京清博智能科技有限公司
1000TB
中文千万轮对话语料库 DOTS-NLP-216
数据集构成:真实场景对话采集,高度还原真实场景的模拟对话。兼顾分布的代表性、多样性和样本规模。覆盖领域:工作、生活、校园
2023-09-12 23:50
应用场景:语料语义
北京海天瑞声科技股份有限公司
4G
602万组中法平行语料数据【数据堂】
数据规模602万对中法平行语料数据,中文平均句长18.9个字符数据内容中法平行语料语言汉语、法语数据格式txt准确率90%应用场景机
2024-02-23 14:39
应用场景:用于机器翻译等领域。
数据堂(北京)科技股份有限公司
602万组
10,000条中文新闻事件标注数据【数据堂】
数据规模1万采集时间2,013年5月数据内容新闻事件标注存储格式xml标注内容事件词语标注数据类别事件提取;舆情监测
2024-02-23 15:28
应用场景:可用于自然语言理解等任务。
数据堂(北京)科技股份有限公司
10,000条
983万组中日平行语料数据【数据堂】
数据规模983万对中日平行语料数据数据内容中日平行语料语言汉语、日语数据格式txt准确率90%应用场景机器翻译
2024-02-23 14:39
应用场景:用于机器翻译等领域。
数据堂(北京)科技股份有限公司
983万组
5,000张韩语手写体OCR数据【数据堂】
数据规模5,000张采集环境包括A4纸、方格纸、横格纸等采集设备手机数据内容韩语作文、诗歌、散文、新闻、故事等数据格式图像格式
2024-02-23 15:27
应用场景:可用于韩语手写体OCR任务。
数据堂(北京)科技股份有限公司
5,000张
5万条中文社交评论类句法标注数据【数据堂】
数据规模53,097条中文微博句子数据内容中文微博句法树库存储格式conv语言中文标注内容北大人民日报标准、哈工大依存句法标注规范
2024-02-23 15:27
应用场景:可用于自然语言理解研究等任务,该数据可用于自然语言理解等任务。
数据堂(北京)科技股份有限公司
5万条
13个模块实体名单句标注数据【数据堂】
语言中文数据规模13个模块,共计15,900句语料来源人工编写标注内容实体名、实体类型数据格式excel准确率95%
2024-02-23 15:33
应用场景:可用于命名实体识别任务。
数据堂(北京)科技股份有限公司
13个
687,694句开放领域意图标注数据【数据堂】
数据规模687,694句,涵盖60个领域数据格式json标注内容实体标注、关联实体标注、意图标注语言中文
2024-02-23 14:38
应用场景:可用于自然语言理解等任务
数据堂(北京)科技股份有限公司
687,694句
28,237句交互场景单句意图标注数据【数据堂】
数据规模28,237句应用场景意图理解数据内容智能交互场景下多个领域的单句意图标注数据数据格式excel标注内容人工编写相应意图的
2024-02-23 14:42
应用场景:可用于自然语言理解等任务
数据堂(北京)科技股份有限公司
28,237句
1,282万组中韩平行语料数据【数据堂】
数据规模1,282万对中韩平行语料数据,中文部分平均句长25.7字数据内容中韩平行语料语言汉语、韩语数据格式txt准确率90%应用场景
2024-02-23 14:42
应用场景:用于机器翻译等领域。
数据堂(北京)科技股份有限公司
1,282万组
14,980张8种语言PPT OCR数据【数据堂】
数据规模14,980张,8种语言采集环境包括会议室(会场)、会议厅语言种类法文,韩文,日文,西班牙文,德文,意大利文,葡萄牙文,
2024-02-23 15:33
应用场景:可用于多国语言OCR任务
数据堂(北京)科技股份有限公司
14,980张
8,200万条粤语剧本文本数据【数据堂】
数据内容8,200万条粤语剧本数据采集时间2,015年存储格式txt语言粤语
2024-02-23 15:28
应用场景:可用于自然语言理解,知识库构建等任务。
数据堂(北京)科技股份有限公司
8,200万
10,034人监控场景下Re-ID数据【数据堂】
数据内容医疗场景下多轮医患问答数据存储格式json语言中文采集时间2,020年5月应用场景智能医疗,问答系统
2024-02-23 15:33
应用场景:可用于自然语言理解等任务
数据堂(北京)科技股份有限公司
203,029组
1,300万组人机对话交互文本数据[数据堂]
数据内容人机对话交互文本数据数据规模1,300万采集时间2,017年存储格式txt语言中文
2024-02-23 15:42
应用场景:可用于自然语言理解等任务
数据堂(北京)科技股份有限公司
1300万组
103,282张驾驶员行为标注数据【数据堂】
数据规模103,282张人员分布性别分布:男、女,人种分布:黄种人,年龄段分布:18~30岁、31~45岁、46~60岁采集环境车内摄像头拍摄
2024-02-23 14:43
应用场景:可用于驾驶员行为分析等任务。
数据堂(北京)科技股份有限公司
103,282张
105,941张12种语言自然场景OCR数据【数据堂】
数据规模105,941张,包括亚洲语系: 日语9,997张、韩语10,231张、印尼语7,591张、马来语5,650张、越南语8,822张、泰语9,645张;
2024-02-23 15:32
应用场景:可用于多国语言OCR任务
数据堂(北京)科技股份有限公司
105,941张
830,276组人人多轮对话文本数据[数据堂]
数据内容真实的人人多轮对话文本数据规模830,276组采集时间2,015年存储格式txt语言中文用途智能客服及智能交互场景中的多轮对话
2024-02-23 15:42
应用场景:可用于自然语言理解等任务
数据堂(北京)科技股份有限公司
830,276组
56,920条细粒度汽车评论标注数据【数据堂】
数据规模56,920条数据内容汽车论坛帖子细粒度标注存储格式xml语言中文标注内容属性、评价内容、描述值、厂商、品牌、型号、对比
2024-02-23 15:26
应用场景:可用于细粒度自然语言理解研究、情感分析等领域。
数据堂(北京)科技股份有限公司
56,920条
«上一页
1
2
下一页»
共22条/2页
搜索排行
2条
1
政策数据集
4条
2
儿童
2条
3
扫地机器人
184条
4
数据堂
10条
5
方言
10条
6
车
3条
7
动物
23条
8
人脸
41条
9
大模型
北京人工智能高质量数据集服务平台
创新数据服务,积极推进数据拓展应用
关于我们
・
北京人工智能高质量数据服务平台简介
・
网站法律声明及隐私权政策
联系我们
・留言:
提交反馈/留言
・合作:15911018798
©2020-2023 北京人工智能数据标注库平台 北京人工智能高质量数据集服务平台 SYSTEM All Rights Reserved
指导单位:
北京市经济和信息化局数字经济专班
北京人工智能产业联盟
运营单位:
北京帕依提提科技有限公司
京ICP备2022014932号-1
合作
咨询
15911018798
数据合作联系电话
微信
联系
微信联系