文|潘程、闵令智
编辑|小倍
来源|数字时氪(ID:digital36kr)
“有多少智能,就有多少人工。”
这句话在人工智能崛起的十余年里,俨然变成了一个挥之不去的魔咒。2022年,工信部副部长张云明指出,“截至目前,我国人工智能核心产业规模已经超过4000亿元,企业数量接近4000家。”这背后,从事数据标注的劳动人口超过千万,其中从事「自动驾驶 数据标注」的劳动人口已达到500万左右。
2022年,随着自动驾驶数据标注的需求量开始爆发,简单粗暴的堆人力,已无法有效解决“需求波峰”时供应不足的行业痛点。
该如何利用技术的手段,缓解人力的困局?该如何让「自动驾驶 数据标注」的效率提升、质量可控?已经成为不少数据标注创业者、自动驾驶从业者共同思考的现实问题。
1 需求侧:「自动驾驶 数据标注」的需求将长期存在,量级无上限
从2021年下半年起,主机厂「数据标注的需求信号」开始释放,并呈现逐步扩大的趋势。
据行业内部人士透露,“去年下半年,国内一大批主机厂开始在内部搭建自动驾驶团队,去年的人员规模大概从几人到十几人不等,今年已经突破百人。”“某一主机厂,单单是研究体系的数据一天就有三个T。”
从主机厂的数据标注投入金额看,去年的投入金额在几十万左右,今年的投入目标从大几百万到上千万不等,明年的预算已达到3000万人民币左右。对标国内某头部自动驾驶公司,其每年在数据方面的投入在6000万人民币左右,不难看出国内主机厂在自动驾驶的赛道上已开始奋起直追。
从相关数据标注公司的业务印证看, 年,澳鹏在中国市场收入近 2500 万美元,年增长率为 442%,预计 2022 年收入增速达到 100% 左右。其中自动驾驶相关的份额占60-70%以上,增长率达200%左右。其自动驾驶2D/3D 融合标注产能已达到 2 个月 1000 万帧,覆盖商用车、乘用车等各类车型。
从自动驾驶的不断演进看,随着激光雷达、摄像头等感应器的不断丰富,自动驾驶的数据标注类型与数量在不断增加;随着高速路、城市快速路、停车场等应用场景的不断丰富,自动驾驶的数据标注量呈现出指数级上升的趋势;随着更多量产车的上路,未来回传的数据量也将是大量且多元的……这些都对数据标注产生了持续的需求。
与此同时,自动驾驶行业「缺乏统一标准」「重复造轮子」的混乱局面,反而也催生了大规模的数据标注量。
据行业内部人士透露,“在自动驾驶行业里,几乎每一家涉足的机构都有各自的标注标准,甚至是标注工具。需求方的要求五花八门,每一家都在建立自己专属的数据集,且行业内无法通用,这就导致不少数据标注公司可能在‘同一张图片上’反复做不同的标注。
36氪判断:
·到2025年(中期)、2030年(长期),自动驾驶数据标注的整体市场空间仍无法精准估算,但自动驾驶数据标注持续且长期的需求是非常确定的;
·自动驾驶数据标注的需求量级也是无限的,并不会因为行业较长时间停留在L2+级别,而导致数据量不大;
·国内主机厂不断提高数据标注预算的机会窗口期,将至少持续5-10年甚至更长;
·主机厂与数据标注创业机构“强绑定”将成为趋势,这将有利于主机厂长期“把控”数据安全,且抢占产能,从而使自动驾驶相关项目的落地更具确定性。
2 供给侧:创新将重点围绕“AI辅助标注算法升级”和“精益流程”两条路径展开
从目前自动驾驶数据标注的供应商看,目前国内以百度、澳鹏、海天瑞声、数据堂、龙猫数据、倍赛科技等为代表,主要的合作模式为提供“标注工具+众包服务”。此外,在这个行业中还有中小型企业大约700-800家,它们大多数停留在“劳动密集型”的定位之中。
从「自动驾驶 数据标注」的供给侧技术演进看:
1.0时代,年前以开源的单机标注工具为代表,可以满足<10K数量级的标注处理;
2.0时代,2012年后深度学习的火热,催生了以海量数据“喂养”人工智能模型的更具性价的研发方式,进而催生了更大量级的数据标注需求。因此在2012年-2019年期间,是以数据标注平台为代表的,可以满足10K-100K数量级的标注处理;
3.0时代,年后自动驾驶的火热则不断对数据标注的量级提出更高要求,100K、1000K的需求量演进几乎成为行业共识,单纯堆人力的方式已经变得既不经济也不效率,行业呼唤着更加智能化的数据生产平台,或者是更加精益化的生产流程出现,以应对>100K的数据标注需求。
通过供给侧的技术演进路径不难看出,从2012年至今,整个数据标注的技术正在从“单机标注工具——数据标注平台——智能数据标注平台/精益流程生产平台”的趋势演进。在2022年这个关键节点,行业内已经出现不少优质的“智能数据标注平台/精益流程生产平台”,其背后的创业机构也纷纷在今年完成早期融资。
36氪判断:
·「自动驾驶 数据标注」公司需要大规模堆人力的魔咒,正在不断被技术所打破;
·通过AI辅助标注算法的升级,减少人力、提升标注效率,是未来数据标注创新的路径之一;
·将工业领域的“精益生产”引入数据标注行业,从顶层设计起做出完整的“精益流程”的梳理,辅以AI技术提升效率,并降低对“个人能力”的依赖,是未来数据标注创新的路径之二。
·整体而言,2019年以来这一波借助科技起势的「自动驾驶 数据标注」公司,未来仍面临诸多不确定性:未来如果新的算法出现,不需要大量的数据标注时,创业公司该如何是好?是否现在就需要提前谋划在数据标注之外的价值沉淀?
上一篇
下一篇


