企业资讯

首页 关于我们

企业资讯

特别报道|海天瑞声贺琳接受北京新闻采访:为中文大模型打造高质量数据底座
发布时间:2023/09/12
返回列表

海天瑞声贺琳接受北京新闻采访:为中文大模型打造高质量数据底座

随着大模型领域的飞速发展,今年国内已发布超过80个大模型,其中约一半位于北京市。今年5月,北京市经信局联合市科委、中关村管委会和市发改委共同启动了 “北京市通用人工智能产业创新伙伴计划” 共39家企业,海天瑞声成为首批入选该计划的 “数据伙伴”。

在上个月的2023全球数字经济大会中,正式发布了总规模超500T的 “人工智能大模型高质量数据集”。其中,海天瑞声 “大模型多语种语音数据集”、“大模型中文千万轮对话数据集” 入选,助力北京市打造人工智能大模型产业高地。

北京市经信局、百度云、海天瑞声、金山云接受北京卫视采访。海天瑞声创始人、董事贺琳在采访中介绍了海天瑞声近20年来在人工智能数据领域的持续探索与创新发展。

大模型的崛起,可以说是数据、算力、人才、资金等关键生产要素全面支撑的结果。在采访中,贺琳介绍了海天瑞声在人工智能训练数据领域的持续发展和创新。作为国内最早从事该领域的企业之一,海天瑞声的训练数据涵盖语音识别、语音合成、计算机视觉、自然语言等多个核心领域。已经积累了超过1300个自有知识产权的人工智能训练数据产品,为全球超过810家企业及科研机构提供高质量数据支撑,全面服务于科技互联网、智能驾驶、Iot、智慧金融等行业,助力人工智能领域发展。

携手共建高质量数据,助力中文大模型“加速度”

高质量训练数据的生产需要长期的资源投入和专业的技术支撑,并在遵循相应的质量标准和规范的基础上,保持不断更新和扩充,才能更好的迎接人工智能领域发展的新需求与新挑战。

为了打造高质量中文语料库、围绕语料数据共建生态,海天瑞声携手中科院自动化所、中国信通院泰尔实验室、智谱AI、澜舟科技、循环智能,在2023全球数字经济大会中启动 “高质量中文大模型训练数据集共建项目”,为中文大模型研发提供 “加速度”。

千万轮对话语料库,打造中文大模型的“新引擎”

大模型训练使用的数据集规模近年来呈爆发式增长,从GPT3 的1750亿参数,到近期Llama2的700亿参数,甚至更大Bloom的1760亿参数,高质量数据成为大模型不断突破的重要资源。

近期,海天瑞声推出「中文千万轮对话语料库 DOTS-NLP-216」。这是一个符合中国人表达习惯的自然对话数据集,共计约1,0000,000轮,上亿级token,包含正式&非正式风格对话,使用偏口语化自然表达。内容覆盖工作、生活、校园等场景,及金融、教育、娱乐、体育、汽车、科技等领域。

海天瑞声肩负“做智能世界数据基石”的使命,致力于成为人工智能数据领域的引领者,我们将以高质量训练数据为大模型发展提供源源不断的动力,推动人工智能领域不断取得突破。

 

 

 

分享到微信朋友圈

打开微信,点击底部的"发现"

使用“扫一扫”即可将网页分享至朋友圈。