首页
人工智能高质量数据集
数据提供方
手机版
选择频道搜索
人工智能高质量数据集
数据提供方
首页
>
人工智能高质量数据集
>
大模型
按行业查看
大模型
(37)
金融
(7)
医疗
(9)
交通
(6)
工业
(2)
太空探索
(0)
通信
(1)
医药
(6)
安防
(2)
农业
(4)
林业
(1)
建筑业
(4)
零售业
(0)
餐饮业
(1)
旅游业
(1)
环境与地理
(9)
人文历史
(0)
教育业
(5)
体育业
(2)
房地产业
(0)
酒店与住宿
(0)
家居生活
(5)
计算机科学
(3)
人物形态
(45)
机器视觉
(27)
自然语言处理
(22)
游戏动漫
(0)
能源电力
(0)
生物微生物
(0)
语音识别
(77)
动物识别
(3)
商业信息
(8)
您可以
或
更新时间
1天内
3天内
7天内
15天内
30天内
中文高质量大模型预训练文本数据集
文本内容涵盖80多个学科领域,进行了准确的标签分类和严格的内容清洗。数据规模:1亿篇数据类型:txt
2023-09-12 23:51
应用场景:大模型
数据堂(北京)科技股份有限公司
500GB
大模型中文千万轮对话数据集
该数据集是一个上千万轮的双人对话的高质量工程化数据集,覆盖金融、教育、客服等行业和场景,用于大模型的训练和调优。数据规模
2023-09-12 23:52
应用场景:大模型
北京海天瑞声科技股份有限公司
2GB
高品质、大规模、多语种双语平行语料数据集
来自于科技服务、军事、国防安全、金融、医疗等领域的专利、论文、科技文献等资料整理的双语平行语料数据规模80 亿对数据格式:
2023-09-03 13:58
应用场景:科技服务、军事、国防安全、金融、医疗等领域
中译语通科技股份有限公司
1.6T
生成式对话大模型精调语料
面向对话大模型的高质量、多类型指令数据集,包括但不限于单轮对话、多轮对话、个性化指令、上下文理解指令和推理思维链等数据规
2023-09-12 23:53
应用场景:通用领域和全球防务领域
中译语通科技股份有限公司
30G
声誉风险事件数据集
数据概述:近10年声誉风险事件的舆论高结构化、时序化和精准关联分析数据。数据规模:100亿条数据格式:文本
2023-09-02 13:19
应用场景:舆情分析
网智天元科技集团股份有限公司
40TB
藏语语音文本句对数据集
含卫藏、安多、康巴三种藏语方言的平行语料和语音对应文本的多模态数据集。数据规模:2000万秒350万条数据格式:文件
2023-09-02 13:19
应用场景:语音识别
网智天元科技集团股份有限公司
480GB
多语言多模态视频文本对齐数据集
涵盖普通话、方言、英德越印芬瑞阿等30多个语种,每段视频都标注了话题类型、说话内容。数据规模:2万小时数据类型:avi
2023-09-02 13:22
应用场景:大模型
数据堂(北京)科技股份有限公司
20TB
超大规模中文多领域高质量多轮对话数据集
15w小时,5千万轮多领域自然式人人对话数据集,可显著优化中文多轮交互自然效果。数据规模:15w小时数据格式:wav
2023-09-02 19:47
应用场景:人机对话
北京晴数智慧科技有限公司
18TB
大模型多语种语音数据集
该数据集包含20万小时多人对话/单人的高质量工程化人机交互场景语音数据,覆盖汉语、英语、日语等200个语种和方言,可用于通用语
2023-09-02 13:23
应用场景:人机交互
北京海天瑞声科技股份有限公司
28TB
北京市中小企业惠企政策数据集
国家级、北京市级、区级惠企政策全量拆解发布,精准触达企业。数据规模:25159条数据格式:txt
2023-09-02 13:19
应用场景:大模型
北京市中小企业服务中心
108GB
产业要素数据集
产业链及链上要素,包含产业链上下游、政策、舆情、企业及科创评估。数据规模:15亿条数据格式:数据库索引文件、文档附件
2023-09-02 13:24
应用场景:大模型
拓尔思信息技术股份有限公司
60TB
产业风险数据集
覆盖8000+产业节点,包括产业风险指数、产业舆情风险及风险企业数据。数据规模:10亿条数据格式:数据库索引文件
2023-09-02 13:24
应用场景:大模型
拓尔思信息技术股份有限公司
40TB
中国科学引文数据库数据集
中国科学引文数据库(Chinese Science Citation Database,简称CSCD)创建于1989年,是我国第一个引文数据库,覆盖我国数学、物
2023-09-02 13:17
应用场景:大模型
中国科学院文献情报中心
60GB
科技文献挖掘语义标注数据集
人工整编的可用于科技文献语步识别、概念定义识别、研究问题识别、领域分类、领域科研实体识别等任务的训练数据集。其中语步识别
2023-09-02 13:17
应用场景:大模型
中国科学院文献情报中心
20GB
国家法律法规语料库
收录了中国现行的各类规范性法律法规以及相关国际 条约,包含中国法律库、中国法规库、司法解释库、地方 法规库、国际条约惯例库
2023-09-02 13:18
应用场景:大模型
人民网科技(北京)有限公司
2.58GB
两会参政议政建言数据集
北京市2002-2023年两会期间各类参政议政建言、答复等政务文本及其分词库。数据规模:政务文本数据65798条;分词库93398条数据格
2023-09-02 13:26
应用场景:大模型
北京市科学技术研究院
2.6GB
人民日报语料库
收录了党的十八大以来《人民日报》的要闻、评论、理论、经济、政治等重要版面内容。数据规模:185296条数据格式:json
2023-09-02 13:18
应用场景:大模型
人民网科技(北京)有限公司
0.8GB
«上一页
1
2
下一页»
共37条/2页
搜索排行
2条
1
政策数据集
4条
2
儿童
2条
3
扫地机器人
3条
4
动物
23条
5
人脸
184条
6
数据堂
10条
7
方言
10条
8
车
41条
9
大模型
北京人工智能高质量数据集服务平台
创新数据服务,积极推进数据拓展应用
关于我们
・
北京人工智能高质量数据服务平台简介
・
网站法律声明及隐私权政策
联系我们
・留言:
提交反馈/留言
・合作:15911018798
©2020-2023 北京人工智能数据标注库平台 北京人工智能高质量数据集服务平台 SYSTEM All Rights Reserved
指导单位:
北京市经济和信息化局数字经济专班
北京人工智能产业联盟
运营单位:
北京帕依提提科技有限公司
京ICP备2022014932号-1
合作
咨询
15911018798
数据合作联系电话
微信
联系
微信联系