企业资讯-海天瑞声

生态共建｜海天瑞声携高质量大模型数据集亮相2023服贸会

发布时间：2023/09/12

返回列表

8月28日，2023中国国际服务贸易交易会分论坛“通用人工智能算力论坛”在京举办。本次论坛由北京市石景山区人民政府、北京市经济和信息化局、北京市科学技术委员会中关村科技园区管理委员会联合主办。

海天瑞声近期发布的“中文千万轮对话语料库 DOTS-NLP-216”入选第二批北京市人工智能大模型高质量数据集名单。作为“北京市通用人工智能产业创新伙伴计划”第一批数据伙伴，显示了海天瑞声在人工智能数据领域的实力。

在本次发布的第二批北京市人工智能大模型高质量数据集中，共有来自16家单位不同领域的41个数据集，涵盖医学、生物、农业、金融、政务、互联网、智慧城市、自动驾驶、科技服务、商业分析、产业研究、市场营销等，数据总量规模约112TB，为通用大模型和行业大模型训练及应用落地提供了坚实有力的“资源”保障。

海天瑞声“中文千万轮对话语料库 DOTS-NLP-216” 是一个符合中国人表达习惯的自然对话数据集，共计约10,000,000轮，上亿级token，包含正式&非正式风格对话，使用偏口语化自然表达。覆盖工作、生活、校园等场景，及金融、教育、娱乐、体育、汽车、科技等领域。

在数据集构成上，DOTS-NLP-216包含了对真实场景的对话采集，及高度还原真实场景的模拟对话这两种方式，兼顾分布的代表性、多样性和样本规模。海天瑞声始终致力于在安全合规的基础上，为大模型提供更好的性能和鲁棒性，帮助企业更轻松的构建高质量生成式AI应用。

样例：

海天瑞声深耕人工智能数据领域近20年，始终肩负 “做智能世界数据基石”的使命，为全球810家企业构建数据底座。至今积累了超1300个自有知识产权的大规模工程化数据库，数据库数量全球领先。持续投入研发体系，打造覆盖智能语音、计算机视觉、自然语言处理等核心领域的一体化数据处理平台DOTS。面向大模型领域，为客户提供包括智能算法平台协同标注、价值观对齐、专业领域知识等全方位服务，以高质量数据结合应用场景赋能大模型高质量发展。

上一篇：特别报道｜海天瑞声贺琳接受北京新闻采访：为中文大模型打造高质量数据底座下一篇：合作伙伴｜微软数字技能赋能项目荣登 2023 年《财富》中国最佳设计榜