行业资讯
数据标注的分类
发布人:小倍
2022年06月17日
数据标注 从难易程度方面可划分为常识性标注与专业性标注。例如,地图识别领域的标注多为常识性标注,标注道路、路牌、地图等数据,语音识别标注也多为常识性标注。做该类型标注工作难点在于需要大量标注训练样本,因为应用场景多样且复杂,对标注员无专业技能要求,主要是认真负责,任务完成效率快、质量高的即为好的标注员。
医疗诊断领域标注多为专业性标注,因为病种、症状的分类与标注需要有医疗专业知识的人才能做,招聘领域标注也属于专业性标注,因为标注员需要熟知招聘业务、各岗位所需的知识技能,还需了解HR招人时的关注点,才能判断简历是否符合职位的招聘要求。该类型的标注工作需要有招聘领域专业知识的标注员,或者称为标注专家,标注工作的难点比较多,例如选拨培养合适的标注员、标注规则的界定、标注质量的控制等多方面。
数据标注的类型主要是常见的打标签分类标注、机器视觉中的标框标注、自动驾驶中的区域标注、人脸识别描点标注以及其他个性化标注。
数据标注从标注目的方面可划分为评估型标注与样本型标注。
评估型标注一般是为了评估模型的准确率,发现一些Badcase样例,然后优化算法模型,该类型标注工作为了节约标注资源可控制标注数量,一般情况下标注千量级的数据,样本具有统计意义即可,标注完成后需要统计正确率,以及错误样例,该类型标注的重点是错误样例的原因总结,分析每个Badcase出现的原因,并将原因归纳为不同的分类,有了原因分析方便算法同学分类型分批次的优化模型。
样本型标注即为模型提供前期的训练样本,作为机器学习的输入,该类型标注工作需要标注大量数据,一般情况下需要标注万量级的数据。为了样本的均衡性,标注样本多是随机抽取的,这样做的优点是可在一定程度上避免样本偏差,但缺点是要标注大量数据。如果是文本型样本,有时可借助算法抽取一些高频、高质量样本进行标注,这样可一定程度上减少标注工作量,但可能存在样本偏差。总之样本型标注是个苦力活,业界有句话这么说的:如果你和一个人有仇,那么劝他去干标注吧。
数据标注从标注对象方面可划分为文本标注、图像标注、语言标注、视频标注,从标注方式方面可划分为分类标注、标框标注、描点标注,这些标注分类基本都属于标注形式的差异,没有较强的专业度。
上一篇
下一篇
相关文章
AI预标注技术是数据标注行业的未来
在人工智能不断发展的同时,作为人工智能的上游基础行业,数据标注也伴随着人工智能完成了产业升级。用人工智能实现对数据标注的反哺已经成为了行业发展的重要驱动力。其中,预标注技术在其中发挥了关键的作用。
2022年06月24日
数据标注过程中如何确保标注质量
数据标注质量问题一直是标注领域关注的主要话题,也许你在解决这个难题时会遵循大数据领域的观点,那就是“垃圾进,垃圾出”。这样说,是想让每一位数据标注领域的从业者,明白人工智能和机器学习开发项目的训练数据的基本规律,数据质量是人工智能的基础,是重中之重,低质量的训练数据集可能会导致大量操作错误。
2022年06月21日
⾃动驾驶中的数据标注
目前,公认的自动驾驶分级标准由SAE(SAE International,Society of Automotive Engineers国际自动机工程师学会,原译为美国汽车工程师学会)制定。
2022年06月15日