企业资讯

首页 关于我们

企业资讯

特别报道|第一财经专访海天瑞声创始人、董事长贺琳:数据能力加速AI产业化落地进程
发布时间:2024/09/12
返回列表
作为人工智能三要素之一,数据的质量和数量对大模型的训练效果起到至关重要的作用。随着数据要素市场的发展,各行各业数据资源开发能力持续增强,推动大模型不断迭代,赋能千行百业。海天瑞声创始人、董事长贺琳接受第一财经《数字中国行·第二季》专访,深入探讨AI训练数据行业的发展现状和前景,并展望海天瑞声未来的市场和机会。
 
 
以下为第一财经与贺琳的访谈内容整理:
 
 
大模型商业化进程下,催生新数据需求
 
第一财经:2023年以来,AI的爆火带动了AI训练数据的强需求。这两年行业发生了哪些变化?
贺琳:首先,大模型技术的突破和跃升,将驱动新型数据需求持续增长。一方面,大规模、多样性、高质量数据集的重要性凸显,成为模型训练效果的核心支撑。另一方面,AI发展所面对的数据前沿性及工程化技术的挑战也将更为显著。生成式AI催生了多模态数据需求呈快速增长趋势。只有AI数据处理技术的不断创新和发展,才能及时适应甚至超前引领大模型技术和应用的发展。
同时,随着人工智能企业全球化布局加速,多语种能力成为企业业务拓展核心支撑。2013年提出“一带一路”的倡议,这十年来,随着国家“一带一路”战略的深入推进,国内一批具有较强创新能力和过硬技术实力的企业纷纷踏出国门,积极拓展海外市场,通过不断扩大企业出海战略版图获得高速发展。另一方面,境外头部企业也在践行“全球化”战略,加速全球化布局。这些变化让我们感受到,多语种训练数据对客户在语音助手、智能汽车、智能家居等领域应用起到了积极作用。多语种需求也呈现快速增长的趋势,具有强大语言研究能力的数据服务企业将获得更多的商业机会。
人工智能技术加速向产业渗透融合,催生更多垂向领域数据需求。在汽车、金融、医疗、工业等传统行业的渗透率和应用场景不断提升,展现出可观的商业价值和巨大的发展潜力。数据作为打通算法技术与行业需求的核心桥梁,作用更加凸显,可以说数据能力一定程度上决定了算法模型在对应产业的适用性以及实用性,成为加速AI产业化落地的关键要素。
最后,也是非常重要的一点,随着国家法律法规密集落地,对数据安全及合规也提出了更高的要求。
 
第一财经:海天瑞声在大模型领域有哪些布局?
贺琳:随着大模型技术的快速发展,大模型成为公司目前最重要的战略方向,我们已经和国内一些知名的大模型厂商建立合作,研发为大模型所使用的高质量数据集。
在大模型领域的布局主要分为两部分:首先是我们在研发数据生产中使用的大模型工具。我们也在做自己的大模型,我们的大模型主要用于数据生产,提高数据生产的效率,提升数据质量。目前我们与大模型企业打磨新的数据处理技术,提高数据的标注效率和准确性,开发为语言大模型、语音大模型、视觉大模型,以及视频大模型量身定制的数据生产平台。
其次,我们也在积极打造大模型数据集的矩阵,主要包括通用大模型数据集和行业大模型数据集。在通用大模型数据集建设上,我们已经研发出DOTS-216千万轮高质量对话数据集,提升大模型对话能力。在行业数据上,我们已经研发出汽车、金融、教育、医疗等行业大模型所需的高质量数据集。这些数据集的打造需要我们不断与研发大模型的客户共同磨合和探讨。
 
 
以高质量数据,驱动人工智能赋能千行百业
 
第一财经:哪些行业、哪些领域有新的数据需求?
贺琳:AI行业每天都在发展,我认为千行百业都需要大规模、高质量的数据集,我看到很多新兴的领域对数据的需求越来越多,比如在农业和工业等比较传统的产业,以及医疗和自动驾驶等。
我们目前也在积极对接农业场景,发现传统的农业产业也对人工智能提出了更高、更实际的需求。例如,希望通过声音来识别和监测猪只和鸡只的生长状态,是否生病,生活环境是否舒适,是否存在隐患等。通过发出的叫声来对健康状态进行识别,如果发现异常可以及时进行干预。如果真的能实现落地,我认为对农业生产的质量、安全合规的水平都能够所有提升。
同时,我们在自动驾驶领域也投入了很多,自动驾驶是海天瑞声最早落地的行业数据方向。我们看到自动驾驶技术已经相对成熟,并且有大量的数据需求。为了更好的生产自动驾驶数据,打造了专有的数据生产平台,这些都是看到的一些行业方向。
 
第一财经:与同行相比,海天瑞声的独特优势体现在哪些方面?
贺琳:我们的核心竞争优势可以分为五个方面。
首先是技术优势,我们打造了一体化数据生产平台,既保证数据安全合规,也确保数据能够高效生产。平台拥有超过200个算法对平台进行支撑,实现数据预标注,同时拥有上千个数据处理工具,对不同类型的数据进行加工。
其次是人才优势,核心高管团队大部分来自于研究人工智能的头部的高校和研究院所。
第三是客户优势,海天瑞声成立于2005年,也是国内最早做人工智能训练数据的公司。经过近20年的积累,服务全球超过930家客户,包括AI企业、科研机构、政企客户,并建立了稳定的合作关系。
第四是资源优势,我们积累了全球1300多家供应商,支撑我们可以处理全球超过200种语种和方言的能力。同时,还组建了遍布全球的语言学专家团队,语言的能力和扩展是对数据公司的核心要求。
第五是安全合规优势,安全合规一直是海天瑞声的生命线,也是数据公司的生命线。我们也率先通过ISO27001/27701/9001等质量认证,遵循GDPR法规,并且在公司设立数据安全官专岗,这也是一个团队,其中包含研发、法务、业务人员,共同推动数据项目安全合规的进行。
 
第一财经:相比通用数据,行业数据获取的难度更大。对此,海天瑞声采取的策略是什么?
贺琳:我们携手行业客户建立生态,共同打造高质量的行业数据集。行业客户手里有数据,但是不知道如何加工,如何提取成可供模型训练的数据集,这方面正好是海天瑞声的优势,所以我们会与行业伙伴一起挖掘数据价值。另外我想强调一点,我们经常提到的行业数据包括医疗、法律、金融等,通常包含了大量的特定领域的专业知识,在数据处理上也需要拥有特定领域专业知识的人才进行配合,才能对数据进行正确的理解和标注。同时,海天瑞声积极参与建立行业数据标准,制定行业数据标准和共享协议,促进行业数据的可操作性和流通性。
 
第一财经:如何实现AI应用落地?能够落地变现的AI技术与客户,会对数据产生什么样的要求?
贺琳:实现AI应用落地需要AI产业各方紧密合作才能实现。AI应用落地主要涉及几类公司:一类是场景应用端公司,这类公司主要是做AI商业化落地;一类公司是模型端公司,这类公司主要提供模型基础能力;还有一类是数据公司,数据公司连接着场景应用类公司和模型类公司。数据公司一端帮助场景公司挖掘有价值的数据源,把原始数据加工成有价值的数据集,另一端协助模型公司实现落地。这三类公司各自承担着不同但相互依赖的角色,三者的角色也并不固定,会随着时间和发展时期而有所变化。
这些AI技术公司与客户对数据的要求也会越来越高,评价数据的好坏通常包含几个标准衡量:数据规模、数据质量、数据是否精标,以及数据获取是否安全合规。
首先,我们看到数据需求规模越来越大。只有大规模数据才能有效提高模型的泛化能力、减少过拟合的风险、提高模型的复杂度、应对数据的多样性。
其次,除了需要大规模的数据,数据质量也至关重要。高质量的数据需要经过清洗和精确标注,只有将高质量的数据喂给模型,才能够更好的提升模型的识别率。
最后一点,也是我特别想强调的,就是数据安全合规。刚才我也提到了,数据的安全合规一直以来都是公司的红线,目前国内外有关数据的法律法规要求都在快速出台,我们在数据安全合规方面的认知和行动也随之快速迭代和更新。
目前海天所进行的数据安全管理,不仅聚焦在数据采集、标注等生产环节中,更会辐射到数据的全流程,保证数据从来源到去处的全生命周期安全,只有这样的数据安全管理才能为我们所提供的数据产品和服务保驾护航。
 
数据要素的发展,将带来新一轮产业升级
 
第一财经:数据要素市场的发展,能够给公司和行业带来哪些机遇?
贺琳:首先,数据行业将迎来良好的政策环境与巨大的市场空间。国家在数字经济、数据要素市场培育以及数据价值发掘方面制定了一系列政策和行业指引。
其次,数据要素的发展会积极推动人工智能数据处理技术变革与产业升级。数据处理作为人工智能产业链的关键环节,数据的精确性和质量直接关系到人工智能模型的质量。
最后,将进一步推动人工智能数据安全与合规。一方面,数据企业需要严格遵守数据保护法规,确保数据安全合规的使用;另一方面,专业的数据公司在保障数据安全和合规方面的优势,也能够吸引更多对数据安全有高标准高要求的客户,例如政务、金融、医疗、交通等行业客户,从而推动产业向高端市场发展。
 
第一财经:未来5年公司发展有哪些计划和目标?
贺琳:未来5年公司提出“一横一纵”的战略布局。一横是我们计划在数据存储、流通、治理、交易上,探索新的业务领域。作为全国首家AI数据上市公司,海天瑞声计划在数据存储、流通、交易等领域提升专业化能力,布局数据要素全产业链。积极参与数据要素流通标准体系编制工作;探索数据流通新模式、创新应用场景。
一纵是我们将继续深耕AI数据市场,AI数据的大规模需求增长,也催生出人工智能训练师这样一个新兴职业。我们也立足自身,力求带动更多就业机会,让更多人加入到人工智能的大潮中。同时,我们也会持续探索AI数据的新业务模式,不断打造标杆产品和平台,为客户提供更优质的服务。

分享到微信朋友圈

打开微信,点击底部的"发现"

使用“扫一扫”即可将网页分享至朋友圈。