企业资讯

首页 关于我们

企业资讯

数据推荐丨海天瑞声12月数据集重磅上新!
发布时间:2025/12/18
返回列表
海天瑞声12月为开发者与企业带来了全新一批高质量数据集,涵盖语音识别、语音合成、多模态等核心领域。
 
随着语音大模型在各行业加速落地,本月上新在语音领域提供覆盖多音色、多口音、多情感的高质量语音数据,夯实模型的泛化能力与稳定性;在多模态领域同步推出高精度跨模态视频数据集,为复杂语义理解与多模态智能应用的规模化部署提供坚实支撑。
 
语音识别(ASR)数据集
 
 01.多场景多音色语音数据集
该数据集覆盖多样化真实场景,是提升模型泛化能力的重要基础数据。可广泛应用于通用ASR训练、泛场景语音模型构建以及车载语音等产业级应用场景。

产品特点

•   数据规模:覆盖5,000名发音人,累计约450小时真实语音

•   数据规格:采样率16kHz,信噪比(SNR)>25dB

•   多场景采集:涵盖车载、对话、朗读等应用场景

•   多环境录制:包含车内、办公室、居家等使用环境

•   年龄分布均匀:覆盖儿童、少年、青年、中年、老人,各年龄段占比20%,男女比例1:1

 

02.高保真多音色语音数据集

该数据集面向对音质与音色一致性要求较高的应用场景,可有效支撑高精度语音生成与个性化声音建模需求,适用于高保真语音合成、音色迁移及特定人物声音模拟等任务

产品特点

•   数据规模:覆盖1000名发音人,累计约17小时语音数据,音色一致性高

•   数据规格:采样率44.1kHz及以上,信噪比(SNR)>35dB

•   年龄分布均匀:覆盖儿童、少年、青年、中年、老人,各年龄段占比20%,男女比例1:1

 

03.多口音英文双工对话数据集

该数据集面向跨口音ASR、多语言语音助手、全球化客服、呼叫中心自动化、会议转写及国际化AI应用等场景,是提升英语口音识别能力的核心资源。

产品特点

•   数据规模:覆盖1700+发音人,累计超1600小时

•   多口音类型:包含14类英语口音,包括澳大利亚、加拿大、英国(多地区)、北爱尔兰、香港、印度、新加坡、台湾、美国等

•   双工自然对话:双声道录制、真实呈现打断与语音重叠

•   多平台采集:支持手机和电话录制

•   多场景应用:涵盖日常对话、商务会议、客服、呼叫中心等

数据集(部分)

•   澳大利亚英语日常对话(120h)

•   加拿大英语商务会议对话(85h)

•   印度英语日常对话(225h)

•   美式英语呼叫中心场景对话(130h)

……

(联系我们获取完整数据集列表)

 

 

语音合成(TTS)数据集

 

 01.多风格多角色TTS数据集

该数据集面向角色音色构建、大模型精调、虚拟人配音、剧情类AI创作、个性化语音克隆等应用场景,数据集依托多部国民经典影视IP,为多角色音色生成提供坚实基础。

产品特点

•   新增三大角色:咆哮哥、如来佛祖、心灵鸡汤

•   角色音色差异化:多角色、多风格音色,IP角色形象高度还原

•   个性化文本设计:内容贴合角色性格特征

•   高质量录音环境:录音棚采集,音色纯净一致,无噪声干扰

•   专业标注体系:包含文本、韵律、与发音标注,强化模型的韵律与语音表现能力

数据集(部分)

•   中文男声角色模仿合成库-咆哮哥风格(2h)

•   中文男声角色模仿合成库-如来佛祖风格(2h)

•   中英混女声合成库-心灵鸡汤风格(1h)

……

(联系我们获取更多经典IP角色数据集)

 

 

02.美式英语多情感TTS数据集

该数据集适用于可控情绪语音生成、虚拟角色表达、对话式AI创作及智能陪伴等多种应用场景。

产品特点

•   情感覆盖全面:支持十余种常见及高起伏情绪,包括中性、开心、生气、伤心、震惊、害怕、讨厌、失望等

•   多年龄层音色:覆盖年轻、成熟、稳重等不同年龄段女声与男声

•   专业标注体系:提供文本、发音标注,提升模型生成质量与可控度

数据集(部分)

•   美国英语男声语音合成库-温柔暖男20-30岁(3h)

•   美国英语男声语音合成库-温柔成熟30-40岁(3h)

•   美国英语女声语音合成库-成熟稳重50-60岁(5h)

……

(联系我们获取完整数据集列表)

 

 

多模态数据集

 

01.人-物交互动作理解数据集

该数据集面向多模态大模型训练、动作识别、人机交互及带货数字人等应用场景,帮助模型精准理解人—物之间的动作、姿态与语义关系,显著提升理解精度与场景泛化能力。

产品特点

•   数据规模:包含2,000段视频,视频结合物体多角度特写图

•   真实多场景:覆盖办公室、会议室、停车场、花园等

•   多光照条件:涵盖正常光、弱光、逆光等

•   动作+口语解说:每段视频伴有模特对物体的简单解说,贴近真实交互语义

•   视频/图片规格:视频MP4(分辨率1280×720,10–15秒);图片JPG(分辨率3072×4080,每个物体3张)

 

02.美学构图训练数据集

该数据集面向美学模型评测、图像生成、影像调优、设计类 App 及手机影像系统等应用场景,帮助模型掌握构图规律提升成片的审美水平与视觉表现力

产品特点

•   数据规模:包含7,231组高质量图像

•   专业摄影采集:由摄影师使用单反相机及手机拍摄

•   多构图标签:涵盖三分法、中心构图、对角线、三角构图、水平构图等

•   审美级标注:每张图匹配1–3种构图标签,便于模型学习审美规律

•   高分辨率图片:JPG格式,分辨率1920×1080及以上

 

03.中文新闻图文交织数据集

该数据集适用于新闻理解、事件抽取、图文对齐、信息检索、内容生成及舆情分析等任务,帮助模型提升对新闻语境、事件逻辑及图文关联的综合理解能力。

产品特点

•   数据规模:包含100万组,新闻图片与文本组合

•   多行业覆盖:涵盖科技、人文、社会、金融、体育、旅游、健康等多个领域

•   专题内容丰富:包括党政时事,可持续更新

•   新闻内容结构化:提供事件(event)+ 正文(content)字段

•   权威来源保障:新闻来源严格按照中央网信办白名单筛选,确保数据可靠性

 

04.物流场景视觉数据集

该数据集面向智能物流、仓储管理、交通监管、自动分拣、车辆识别及箱体损坏分析等行业场景,帮助模型快速掌握物流物体识别与场景感知能力

产品特点

•   数据规模:包含80万张高质量图像

•   采集对象多样:50类物流相关对象,覆盖厢式货车、牵引车、三轮车、吊车、泡沫箱及其破损状态等

•   多场景采集:运输、仓储、街景、装卸等真实应用场景

•   高质量标注:提供类别标签及精确框坐标,便于模型训练与检测任务

 

05.文旅与人物视频理解数据集

该数据集覆盖人物、街景、建筑、自然地标、特色美食、文化艺术及体育运动等真实场景,结合高质量问答数据,帮助模型提升理解能力、时序推理、构图判断与知识表达能力。适用于AI文旅解说、智能导览助手、大模型视频理解训练及地方文旅知识库构建等应用场景。

产品特点

•   高质量视频素材:分辨率≥1080P/2K,格式支持MP4、MOV、AVI等,视频无水印、无空帧、无损坏

•   问答覆盖多维度:包括空间感知、时序感知、拍摄角度及构图专业问题

•   视频拍摄时长:单段10秒至5分钟

•   大规模可扩展数据资源

o   文旅视频问答对:5万组,由专业团队拍摄,围绕文旅场景设计高质量问答

o   通用场景视频理解训练数据:10万组,覆盖动植物、建筑风景、运动、美食等,问答设计涵盖类别、数量、空间位置、行为动作及时序关系

o   高质量人物视频数据集:100万组,以人物为主体,涵盖中国多领域代表性人物及生活场景中的普通人

o   专业体育运动视频数据集:100TB,覆盖9大类运动,包括田径、球类、水上、冬季运动、武术与格斗、极限运动、健身体能训练及传统民族体育

o   实体视频数据集:200万组,国内环境、文化相关实体及对应视频与内容介绍

 

 

 

分享到微信朋友圈

打开微信,点击底部的"发现"

使用“扫一扫”即可将网页分享至朋友圈。