中文千万轮对话语料库 DOTS-NLP-216

数据规模: 共计约10,000,000轮 上亿级 token
数据大小: 4G
应用场景: 语料语义
数据类型: 文本
最后更新: 2023-09-12 23:50
 
数据简介

数据集构成:真实场景对话采集,高度还原真实场景的模拟对话。兼顾分布的代表性、多样性和样本规模。
覆盖领域:工作、生活、校园等场景,及金融、教育、影视、体育、汽车、科技等。
覆盖语言风格:符合中国人表达习惯的自然对话数据集。包含正式&非正式风格对话,使用偏口语化自然表达。正式对话常见于金融等正式领域客服对话,使用正式的语言、礼貌的措辞和尊重的称呼。非正式对话常见于生活、影视、校园等非正式领域对话,使用偏口语化自然表达。

数据规模
共计约10,000,000轮
上亿级 token

数据格式:
json

0相关评论
数据提供方信息查看主页

北京海天瑞声科技股份有限公司

海天瑞声向全行业提供多语言、跨领域、跨模态的人工智能数据及相关数据服务,涵盖智能语音(语音识别、语音合成等)、计算机视觉、自然语言等多个核心领域,覆盖全球近200个主要语种及方言。
  • 848
更多>本企业其它数据
中文普通话语音识别库(桌面) 美国英语多模态语音视频数据集 印尼语多模态语音视频数据集 大模型中文千万轮对话数据集 中文千万轮对话语料库 DOTS-NLP-216 大模型多语种语音数据集

北京人工智能高质量数据集服务平台

创新数据服务,积极推进数据拓展应用

关于我们

联系我们

合作
咨询

15911018798
数据合作联系电话

微信
联系

微信联系