美国英语多模态语音视频数据集

数据规模: 120条音频、120条转写文本、120条视频
数据大小: 1.5T
应用场景: 多模态
数据类型: 多模态
最后更新: 2023-11-15 19:27
 
数据简介

多模态模型被认为是目前提高人工智能系统能力的最佳途径之一,而本产品库采用最新采集形式,同时采集录制美式英语native发音人的多人对话的音频和视频数据,共计约85小时的有效对话数据,音频和视频数据采集结果会进行对齐处理,误差在30毫秒以内。在稀缺资源语种的基础上具有非常高的信息丰富度,可提供更加全面的信息输入从而高效提升系统的表现和效率。


数据规模:


120条音频、120条转写文本、120条视频


数据格式:
WAV、TextGrid、mp4

0相关评论
数据提供方信息查看主页

北京海天瑞声科技股份有限公司

海天瑞声向全行业提供多语言、跨领域、跨模态的人工智能数据及相关数据服务,涵盖智能语音(语音识别、语音合成等)、计算机视觉、自然语言等多个核心领域,覆盖全球近200个主要语种及方言。
  • 527
更多>本企业其它数据
中文普通话语音识别库(桌面) 美国英语多模态语音视频数据集 印尼语多模态语音视频数据集 大模型中文千万轮对话数据集 中文千万轮对话语料库 DOTS-NLP-216 大模型多语种语音数据集

北京人工智能高质量数据集服务平台

创新数据服务,积极推进数据拓展应用

关于我们

联系我们

合作
咨询

15911018798
数据合作联系电话

微信
联系

微信联系