
面对数据标注的巨大需求,整个行业的技术水平如何?在回答这个问题之前,首先给大家罗列一组数据。
ImageNet 是一个计算机视觉系统识别项目名称,是由美国斯坦福的计算机科学家李飞飞教授领衔的团队模拟人类的识别系统建立的,它是目前世界上图像识别最大的数据库——1,500 万张标注图片的数据集,这是来自 167 个国家的 48,940 名工作者,花费了 2 年时间,清理、分类、标记了近十亿张通过互联网搜集到的图片才得到的。
由于数据庞大又开源,ImageNet 很快成为成为研究图像识别的首选。但尽管如此, ImageNet 也有自己的弱点:标注框太大、标注方式少和不时出现的错误,使它难以被用来训练实际应用的算法模型。
从以上可以看出,即使是业内最强大的图像识别库,数据标注都是通过人工完成的。因此,其它宣传数据标注自动化的,可信度较低。
业内人士透露,数据标注是一个简单又困难的事情。简单之处在于,确定了筛选规则以后,操作人员只需依规操作即可,没有执行上的难度,而困难之处在于,数据标注本质上是要获得更准确,更精细化的数据结果,高质量的数据是业内急需的
但数据标注本身是一项枯燥的工作,工作人员需要对大量数据不断进行重复劳动,数据的一致性很难保证。而这些数据标注的工作,本身是为了提升机器学习的能力,因此这部分工作只能由人来完成,人与机器之间的鸿沟,正是机器要跨越的。
(部分内容摘自网络,如有侵权,请联系删除。)
上一篇
下一篇