语音复刻大模型高品质数据集-中文

产品概述：

本数据集招募了18226名说话者，男女近似1比1。语料覆盖领域多样，包含了对话、唤醒词、控制命令、数字串、新闻论坛、书面语。所有数据使用麦克风进行采集，具备48kHz高采样率，内容自然，是通用语音复刻模型的绝佳训练数据。此数据集已被数家AI头部企业用于声音克隆应用研发，数据质量经过实践检验认可。

数据规模:

 4179024条音频、18226人，6692小时

数据格式：

wav、txt

数据提供方：