生态共建|海天瑞声携高质量大模型数据集亮相2023服贸会
8月28日,2023中国国际服务贸易交易会分论坛“通用人工智能算力论坛”在京举办。本次论坛由北京市石景山区人民政府、北京市经济和信息化局、北京市科学技术委员会中关村科技园区管理委员会联合主办。
海天瑞声近期发布的“中文千万轮对话语料库 DOTS-NLP-216”入选第二批北京市人工智能大模型高质量数据集名单。作为“北京市通用人工智能产业创新伙伴计划”第一批数据伙伴,显示了海天瑞声在人工智能数据领域的实力。
在本次发布的第二批北京市人工智能大模型高质量数据集中,共有来自16家单位不同领域的41个数据集,涵盖医学、生物、农业、金融、政务、互联网、智慧城市、自动驾驶、科技服务、商业分析、产业研究、市场营销等,数据总量规模约112TB,为通用大模型和行业大模型训练及应用落地提供了坚实有力的“资源”保障。
海天瑞声“中文千万轮对话语料库 DOTS-NLP-216” 是一个符合中国人表达习惯的自然对话数据集,共计约10,000,000轮,上亿级token,包含正式&非正式风格对话,使用偏口语化自然表达。覆盖工作、生活、校园等场景,及金融、教育、娱乐、体育、汽车、科技等领域。
在数据集构成上,DOTS-NLP-216包含了对真实场景的对话采集,及高度还原真实场景的模拟对话这两种方式,兼顾分布的代表性、多样性和样本规模。海天瑞声始终致力于在安全合规的基础上,为大模型提供更好的性能和鲁棒性,帮助企业更轻松的构建高质量生成式AI应用。
样例:
海天瑞声深耕人工智能数据领域近20年,始终肩负 “做智能世界数据基石”的使命,为全球810家企业构建数据底座。至今积累了超1300个自有知识产权的大规模工程化数据库,数据库数量全球领先。持续投入研发体系,打造覆盖智能语音、计算机视觉、自然语言处理等核心领域的一体化数据处理平台DOTS。面向大模型领域,为客户提供包括智能算法平台协同标注、价值观对齐、专业领域知识等全方位服务,以高质量数据结合应用场景赋能大模型高质量发展。
相关推荐