海天瑞声9月精选数据集来了!本月精选数据集涵盖语音识别、语音合成及多模态等领域,可广泛服务于大模型训练、语言研究、跨文化交流等,为多场景智能应用落地提供专业数据支撑。
- 全球多口音英语高质量数据集
- 中文多情感多风格数据集
- 头部姿态视频数据集
- OCR手写数据集
- 平行语料数据集
全球多口音英语高质量数据集
该数据集覆盖美、英、澳、加,中日韩、新加坡、印度、非洲等62个国家与地区的口音英语,收录超42,000种音色,总时长超20,000小时。发音人性别均衡,年龄覆盖 4-60 岁,该数据集适用于跨区域语音识别、智能客服、商贸流通、交通行业、智慧金融、教育科研等多个领域。
产品特色
- 全球62个国家与地区多口音英语覆盖
- 超大规模发音人数
- 专业采集与多维度标注,字准97%
- 内容丰富,涵盖新闻播报、短信交流、家庭日常、职场沟通、金融服务、呼叫中心、商务会议等多种场景
中文多情感多风格数据集
该数据集总时长约40小时,语料类型多样化,涵盖多风格、多情感,反映自然交互语境下的语言表达。适用于情感语音合成、智能客服、虚拟人、交互式教育、心理健康陪伴、娱乐互动对话系统等,助力打造更自然、更具人情味的人机交互体验。
产品特色
- 语料覆盖多个维度:冷笑话、土味情话、歇后语、谜语、绕口令、汉字、诗歌、小说、故事、中英混等多类型文本
- 多情绪标注:涵盖安慰、抱歉、恐惧、撒娇、伤心、愤怒、高兴、厌恶、严肃、惊讶等多种情绪类型
- 内容多风格:涵盖日常对话、兴趣交流、童年经历、闲聊拓展等
头部姿态视频数据集
该数据集由1,000段高质量视频,覆盖10-60岁年龄段的黄种人,全方位记录人像头部姿态与表情动作。每段视频画面清晰、头肩比例适中,动作丰富多样,满足多种姿态识别需求,包含720p、1080p等多种分辨率,适用于手机解锁、人像跟踪、虚拟人驱动、AR/VR交互等技术研发与优化。
产品特色:
- 多样化场景覆盖:办公室、会议室、家居、宿舍、走廊等典型室内生活与工作环境
- 丰富的人像表现:包括抬头、低头、左右摇头、嘴巴张闭等
- 多种光照条件:涵盖正常、弱光、逆光等多种光线
产品编号:King-VD-025
OCR手写数据集
该数据集总规模超34万张,文本涵盖联机手写、静态手写公式、表格、手写体、日常文本等,满足跨语言 OCR 需求,训练深度模型更充分。数据类型丰富,样本规模庞大,为不同领域的 AI 项目提供全面的训练支持。
产品特色
- 语种覆盖:中文、英文、日文等30+语种
- 专业标注:算式Latex转写、字/行级框、手写轨迹起始点/方向坐标等
- 丰富的数据内容:涵盖日常手写、教育公式、办公表格、创作文本、诗歌、信件及个人笔记
平行语料数据集
该数据集包括超1亿句对,整体准确率达95%,涵盖多语种、多场景,兼顾书面语与口语表达,可广泛支持跨语言理解与多语种 AI 应用。
产品特色
- 语种覆盖面广:涵盖欧洲、亚洲、少数民族语言等多语种,兼顾口语与书面语
- 语料类型多样:包含新闻、交通、旅游、日常生活、体育健康、金融、科技等领域,贴近真实交流场景
- 翻译质量高:语义对齐精准
数据内容(不限于)
- 古吉拉特–英语平行语料
- 菲律宾语–英语平行语料
- 中文–泰语平行语料
- 英文–泰语平行语料
- 中文–老挝语平行语料
- 英文–老挝语平行语料
- 中文-法语平行语料
- 中文-俄语平行语料
- 中文-意大利语平行语料
在智能化浪潮不断加速的今天,高质量数据不仅是算法突破的基石,更是产业升级的关键引擎。海天瑞声将持续提供覆盖多语种、多模态、多场景的优质数据产品,助力大模型训练与产业创新,推动人工智能技术在全球范围内的深度应用与价值实现。