首页
人工智能高质量数据集
数据提供方
手机版
选择频道搜索
人工智能高质量数据集
数据提供方
首页
>
人工智能高质量数据集
>
搜索
您可以
或
中文高质量
大模型
预训练文本数据集
文本内容涵盖80多个学科领域,进行了准确的标签分类和严格的内容清洗。数据规模:1亿篇数据类型:txt
2023-09-12 23:51
应用场景:大模型
数据堂(北京)科技股份有限公司
500GB
大模型
中文千万轮对话数据集
该数据集是一个上千万轮的双人对话的高质量工程化数据集,覆盖金融、教育、客服等行业和场景,用于
大模型
的训练和调优。数据规模
2023-09-12 23:52
应用场景:大模型
北京海天瑞声科技股份有限公司
2GB
高品质、大规模、多语种双语平行语料数据集
来自于科技服务、军事、国防安全、金融、医疗等领域的专利、论文、科技文献等资料整理的双语平行语料数据规模80 亿对数据格式:
2023-09-03 13:58
应用场景:科技服务、军事、国防安全、金融、医疗等领域
中译语通科技股份有限公司
1.6T
MagicData-CLAM_SFT
大模型
微调数据集-通用领域
此数据集包含200万组通用领域多任务单轮问答数据,任务类型包含头脑风暴、内容分类、关键信息提取、文章生成、内容重写、聊天、
2023-09-03 13:55
应用场景:通用
北京晴数智慧科技有限公司
1.3G
大模型
方言口语语音数据集
涵盖17种方言口语,自然表达的音频数据集,可应用于语音对话与听觉
大模型
的研究。数据规模:12000小时数据格式:WAV
2023-09-03 13:52
应用场景:语料语义
北京希尔贝壳科技有限公司
1TB
生成式对话
大模型
精调语料
面向对话
大模型
的高质量、多类型指令数据集,包括但不限于单轮对话、多轮对话、个性化指令、上下文理解指令和推理思维链等数据规
2023-09-12 23:53
应用场景:通用领域和全球防务领域
中译语通科技股份有限公司
30G
大模型
多语种语音识别数据集
来自世界10多个国家的20万小时音频文本,主要包含中、英、维、藏等国内重点安防关注领域;数据规模20万+小时的音频与对应标注文
2023-09-12 23:53
应用场景:国防安全
中译语通科技股份有限公司
20T
声誉风险事件数据集
数据概述:近10年声誉风险事件的舆论高结构化、时序化和精准关联分析数据。数据规模:100亿条数据格式:文本
2023-09-02 13:19
应用场景:舆情分析
网智天元科技集团股份有限公司
40TB
藏语语音文本句对数据集
含卫藏、安多、康巴三种藏语方言的平行语料和语音对应文本的多模态数据集。数据规模:2000万秒350万条数据格式:文件
2023-09-02 13:19
应用场景:语音识别
网智天元科技集团股份有限公司
480GB
多语言多模态视频文本对齐数据集
涵盖普通话、方言、英德越印芬瑞阿等30多个语种,每段视频都标注了话题类型、说话内容。数据规模:2万小时数据类型:avi
2023-09-02 13:22
应用场景:大模型
数据堂(北京)科技股份有限公司
20TB
超大规模中文多领域高质量多轮对话数据集
15w小时,5千万轮多领域自然式人人对话数据集,可显著优化中文多轮交互自然效果。数据规模:15w小时数据格式:wav
2023-09-02 19:47
应用场景:人机对话
北京晴数智慧科技有限公司
18TB
大模型
多语种语音数据集
该数据集包含20万小时多人对话/单人的高质量工程化人机交互场景语音数据,覆盖汉语、英语、日语等200个语种和方言,可用于通用语
2023-09-02 13:23
应用场景:人机交互
北京海天瑞声科技股份有限公司
28TB
北京市中小企业惠企政策数据集
国家级、北京市级、区级惠企政策全量拆解发布,精准触达企业。数据规模:25159条数据格式:txt
2023-09-02 13:19
应用场景:大模型
北京市中小企业服务中心
108GB
自动驾驶
大模型
预训练数据集
数据集采集自北京高级别自动驾驶示范区的3个不同路口路侧数据,数据内容为路侧视角的脱敏视频数据,覆盖多路口、多路况、多时段,
2023-09-03 23:31
应用场景:自动驾驶
北京车网科技发展有限公司
200GB
产业要素数据集
产业链及链上要素,包含产业链上下游、政策、舆情、企业及科创评估。数据规模:15亿条数据格式:数据库索引文件、文档附件
2023-09-02 13:24
应用场景:大模型
拓尔思信息技术股份有限公司
60TB
产业风险数据集
覆盖8000+产业节点,包括产业风险指数、产业舆情风险及风险企业数据。数据规模:10亿条数据格式:数据库索引文件
2023-09-02 13:24
应用场景:大模型
拓尔思信息技术股份有限公司
40TB
中国科学引文数据库数据集
中国科学引文数据库(Chinese Science Citation Database,简称CSCD)创建于1989年,是我国第一个引文数据库,覆盖我国数学、物
2023-09-02 13:17
应用场景:大模型
中国科学院文献情报中心
60GB
科技文献挖掘语义标注数据集
人工整编的可用于科技文献语步识别、概念定义识别、研究问题识别、领域分类、领域科研实体识别等任务的训练数据集。其中语步识别
2023-09-02 13:17
应用场景:大模型
中国科学院文献情报中心
20GB
国家法律法规语料库
收录了中国现行的各类规范性法律法规以及相关国际 条约,包含中国法律库、中国法规库、司法解释库、地方 法规库、国际条约惯例库
2023-09-02 13:18
应用场景:大模型
人民网科技(北京)有限公司
2.58GB
两会参政议政建言数据集
北京市2002-2023年两会期间各类参政议政建言、答复等政务文本及其分词库。数据规模:政务文本数据65798条;分词库93398条数据格
2023-09-02 13:26
应用场景:大模型
北京市科学技术研究院
2.6GB
«上一页
1
2
…
3
下一页»
共41条/3页
相关搜索
在
数据提供方
找 大模型
在
资讯
找 大模型
在
产业范例库
找 大模型
在
北京市通用人工智能产业创新伙伴计划
找 大模型
您是不是在找?
约2条
中文大模型
今日排行
2条
1
政策数据集
2条
2
扫地机器人
3条
3
动物
23条
4
人脸
41条
5
大模型
84条
6
语音
2条
7
舆情
2条
8
科技
10条
9
方言
本周排行
2条
1
政策数据集
4条
2
儿童
2条
3
扫地机器人
3条
4
动物
23条
5
人脸
10条
6
方言
10条
7
车
41条
8
大模型
2条
9
舆情
本月排行
2条
1
政策数据集
4条
2
儿童
2条
3
扫地机器人
3条
4
动物
23条
5
人脸
10条
6
方言
10条
7
车
41条
8
大模型
2条
9
舆情
北京人工智能高质量数据集服务平台
创新数据服务,积极推进数据拓展应用
关于我们
・
北京人工智能高质量数据服务平台简介
・
网站法律声明及隐私权政策
联系我们
・留言:
提交反馈/留言
・合作:15911018798
©2020-2023 北京人工智能数据标注库平台 北京人工智能高质量数据集服务平台 SYSTEM All Rights Reserved
指导单位:
北京市经济和信息化局数字经济专班
北京人工智能产业联盟
运营单位:
北京帕依提提科技有限公司
京ICP备2022014932号-1
合作
咨询
15911018798
数据合作联系电话
微信
联系
微信联系