语音复刻大模型高品质数据集-中文

数据规模: 4179024条音频、18226人,6692小时
数据大小: 2.6 TB
应用场景: 通用语音大模型
数据类型: 音频
最后更新: 2023-11-15 19:43
 
数据简介

本数据集招募了18226名说话者,男女近似1比1。语料覆盖领域多样,包含了对话、唤醒词、控制命令、数字串、新闻论坛、书面语。所有数据使用麦克风进行采集,具备48kHz高采样率,内容自然,是通用语音复刻模型的绝佳训练数据。此数据集已被数家AI头部企业用于声音克隆应用研发,数据质量经过实践检验认可。

数据规模:


4179024条音频、18226人,6692小时

数据格式:

wav、txt

0相关评论
数据提供方信息查看主页

北京晴数智慧科技有限公司

为人工智能领域研发企业和科研机构提供高质量 AI 训练数据集及专业咨询服务
  • 84
更多>本企业其它数据
语音复刻大模型高品质数据集-中文 智能座舱人机交互高质量数据集 MagicData-CLAM_SFT 大模型微调数据集-通用领域 超大规模中文多领域高质量多轮对话数据集

北京人工智能高质量数据集服务平台

创新数据服务,积极推进数据拓展应用

关于我们

联系我们

合作
咨询

15911018798
数据合作联系电话

微信
联系

微信联系