首页 > 人工智能高质量数据集 > 大模型

语音复刻大模型高品质数据集-中文

数据规模：	4179024条音频、18226人，6692小时
数据大小：	2.6 TB
应用场景：	通用语音大模型
数据类型：	音频
最后更新：	2023-11-15 19:43

数据简介

本数据集招募了18226名说话者，男女近似1比1。语料覆盖领域多样，包含了对话、唤醒词、控制命令、数字串、新闻论坛、书面语。所有数据使用麦克风进行采集，具备48kHz高采样率，内容自然，是通用语音复刻模型的绝佳训练数据。此数据集已被数家AI头部企业用于声音克隆应用研发，数据质量经过实践检验认可。

数据规模:

 4179024条音频、18226人，6692小时

数据格式：

wav、txt

0 条相关评论

553

更多>本企业其它数据

语音复刻大模型高品质数据集-中文

语音复刻大模型高品质

智能座舱人机交互高质

MagicData-CLAM_SFT 大模型微调数据集-通用领域

MagicData-CLAM_SFT

超大规模中文多领域高质量多轮对话数据集

超大规模中文多领域高

北京人工智能高质量数据集服务平台

创新数据服务，积极推进数据拓展应用

关于我们

联系我们

・留言：提交反馈/留言
・合作：15911018798

©2020-2023 北京人工智能数据标注库平台北京人工智能高质量数据集服务平台 SYSTEM All Rights Reserved

指导单位：北京市经济和信息化局数字经济专班北京人工智能产业联盟

运营单位：北京帕依提提科技有限公司

京ICP备2022014932号-1

合作
咨询

15911018798
数据合作联系电话

微信
联系

微信联系