来源:第一财经
在ChatGPT掀起人工智能(AI)热潮的当下,AI三要素之一的数据也成为了热门话题。
作为AI大语言模型高质量回答的基础,训练数据生产过程主要包括四个环节:设计(训练数据集结构设计)、采集(获取原料数据)、加工(数据标注)及质检(各环节数据质量、加工质量检测)。其中,数据标注需要识别图像、文本、视频等原始数据,并添加一个或多个标签为机器学习模型指定上下文,帮助其做出准确的预测。
数据采集标注行业发展至今,已成为半人工智能、半人工化的行业。
数据标注与大模型质量正相关
“当下的机器学习技术大部分依赖于human-in-the-loop,即有监督或来自人类反馈的学习。”杜霖在接受第一财经采访时表示,“而监督和反馈即人对数据的标注与评价。”
AI分析公司Cognilytica研究数据显示,在AI项目中,对数据相关的处理过程可占据超过80%的时间,其中数据标注环节的耗时占比可达25%。
数据标注是指对未经处理的语音、图片、文本、视频等数据进行转义、打点、拉线、拉框等操作,标注为电脑可以识别的信息,再上传到数据库,实现人工智能。一般来说,标注上传的数据越多、越准确,人工智能也就越智能。
招商证券表示,GPT-3与前一代产品GPT-2架构相同,但训练数据与参数量显著提升,GPT-2的预训练数据量为40GB、参数量仅有15亿个,而GPT-3的参数训练量达到45TB、参数量更是高达1750亿个,约有4900亿个tokens。从回答质量上看,ChatGPT回答内容比GPT-2更贴切、准确,并且符合人类语言习惯。
不过,杜霖认为,标注数据贵不在数量而在质量。
“从GPT的实验发现,随着模型参数量的增加,模型性能均得到不同程度的提高。但值得注意的是,通过来自人类反馈的强化学习(RLHF)生成的InstructGPT模型,比100倍参数规模无监督的GPT-3模型效果更好,也说明了”
我国数据标注行业迅速发展
随着全球新一轮AI热潮来临,大量训练数据已成为AI算法模型发展和演进的“燃料”。
艾瑞咨询数据显示,包括数据采集、数据处理(标注)、数据存储、数据挖掘等模块在内的AI基础数据服务市场,将在未来数年内持续增长,到2025年,国内AI基础数据服务市场的整体规模预计将达到101.1亿元,整体市场增速将达到31.8%(2024-2025年)。

而据iResearch数据,2019年我国数据标注市场规模为30.9亿元,预计2025年市场规模突破100亿元,年复合增长率达到14.6%。
与此相伴随,中国数据标注行业正在迅速发展。招商证券认为,一方面,进入大数据时代后,人们各种行为的电子化、网络化带来海量数据,但产生的数据只有1%能被收集和保存,并且收集的数据中90%是非结构化的数据;另一方面,人工智能的兴起带来模型训练所用结构化数据的巨大需求,数据标注的重要性逐渐突显。
按照下游场景类型,2021年我国人工智能数据标注市场中,计算机视觉类、智能语音类和NLP类需求占比分别为45.3%、40.5%和14.2%。随着数据量的不断增长和数据结构的不断变化,数据标注行业涉及的领域也越来越广泛,特别是在自动驾驶、AIGC等领域内,数据标注需求量极大。
AI大模型也将带来大量需求。预计今年10月国内会迎来一波大的类chatGPT大模型的数据需求,而且这是一个海量的需求,以目前国内几家头部数据标注公司来看,目前产能还不足以满足需求。
AI背后:人工有多强大,智能才有多强大?
标注数据如同实现人工智能的一砖一瓦,对于数据采集标注企业来说,数据质量和经营效率无疑是最直接的竞争力,除了自研标注工具外,数据标注员的管理是重要抓手。
“当前,大部分数据标注任务仍然需要人工完成,而且各种数据类型和应用领域都需要相应领域的专业标注员来完成标注任务。”数据标注公司相关人士表示。
据悉,数据标注员是数据标注公司最核心的岗位之一,主要工作是借助标注工具,对人工智能学习数据进行加工,数据一般为图片、视频、文本等,通过不断地拉框、标点等操作,为人工智能提供足够的数据集。
此前,数据标注员的门槛较低,只需要细致有耐心;如今在一些高难度、高质量标准的标注任务中,标注员的素质对标注过程和结果的准确性和稳定性至关重要。例如,在自动驾驶、AIGC等数据类型的标注任务中,标注员需要有相应领域的专业知识和技能才能准确地标注数据。
面对大语言模型动辄上百亿参数的数据质量控制,需要通过标注平台将一个个复杂RLHF需求拆成很多个简单的工作流,让机器去做预处理,人去做深层的基于理解的反馈,以减少人在简单问题上的精力消耗,专注在专业问题上的标注。杜霖介绍,“比如交叉验证模式,即通过人和机器混合验证的模式或者复检的模式,来进一步提升标注质量;此外一系列标准化任务培训的机制,以确保人类反馈的答案一致性,也都是通过平台来实现的。”
杜霖同时还认为,数据标注行业的核心是高效的人机交互工具和任务分发管理平台,“我们公司员工大部分都是围绕着我们平台来做研发和运营管理,真正的标注则通过赋能产能网络去完成。我们主要积累的技术是围绕在怎么通过工具和更高效的流程来实现自动化的任务拆解、预处理与匹配,所以倍赛科技是本质上是一个研发密集型公司,而不是一个劳动密集型公司。”
上一篇
下一篇