
数据标注质量问题一直是标注领域关注的主要话题,也许你在解决这个难题时会遵循大数据领域的观点,那就是“垃圾进,垃圾出”。这样说,是想让每一位数据标注领域的从业者,明白人工智能和机器学习开发项目的训练数据的基本规律,数据质量是人工智能的基础,是重中之重,低质量的训练数据集可能会导致大量操作错误。
例如,自动驾驶车辆的训练数据是车辆能否在道路上运行的决定因素,提供低质量的训练数据,人工智能模型很容易将人类误认为是物体或反之。无论哪种方式,糟糕的训练数据集都可能导致高事故风险,这是自动驾驶汽车制造商在其项目中最不希望看到的。
因此对于高质量的训练数据,作为人工智能训练师在做数据处理时一定会涉及到数据标注质量,那么该如何确保质量问题呢?
如何确保数据标注质量
请记住,人工智能和机器学习的实现非常广泛,对于每个行业,都有数百个不同的项目,在不同类型的对象上工作,质量也不同要求。
我们可以举个简单的例子,道路标注和医疗数据标注
对于道路标注来说,工作非常简单,只需要具备常识的标注人员就可以完成这项工作;对于这个标注项目,需要标注的数据集的数量可能会增加数百万个视频或图片,并且标注者必须将生产力保持在可接受的质量水平。
多层次质量保证过程
所有项目都会经过执行、审核、多重审核、验收等环节。
若在审核阶段数据未达到要求,作业将会被驳回,重新执行标注,直至审核通过交付作业。
1.自检
在此步骤中,要求标注者对自己的工作进行审查。通过自我评估,标注者现在有时间从项目开始回顾数据标注工具、标注和标签。
通常,标注者必须在时间和工作量方面承受很大的压力,这可能会导致他们的工作出现潜在的偏差。从自检步骤开始的质量保证将是标注者放慢脚步并彻底了解他们的工作方式的时候了,通过承认错误和可能的偏差,标注者可以自己修复它们并在将来避免任何这些。
2.交叉检查
在一般的数据科学和特别是数据标注中,您可能听说过“偏见”一词。标注偏差是指标注者有自己的习惯来标记数据的情况,这可能导致对提供的数据有偏见。
在某些情况下,标注偏差会影响模型性能。对于更健壮的 AI 和 ML 模型,我们必须采取一些有效的措施来消除有偏见的标注,而一种简单的方法是交叉检查。
3.项目经理的质检
标注项目经理通常负责标注项目的日常监督。他们的主要任务包括选择/管理劳动力以及确保数据质量和一致性。
经理将接收来自客户的数据采样并处理所需的指标并为标注者进行培训,一旦交叉检查完成,经理可以随机检查输出,看看它们是否符合客户的要求。
在所有这些检查之前,标注项目经理还必须为质量保证画一条“基准线”,为确保一致性和准确性,任何低于预定质量的工作都必须返工。
上一篇
下一篇