
数据标注是对未经处理的初级数据, 包括语音、图片、文本、视频等进行加工处理, 并转换为机器可识别信息的过程。
我们可以根据一张人像照片识别出她/他的性别、年龄阶段、肤色、表情、动作。同样的,对于一段文字,我们可以分辨出主语、谓语、宾语、动名词,这些打标签的行为就是标注。当我们把大量的关于同一件事物的标签输入到模型里,它也就具备了识别这个事物的能力。
中科院自动化所研究员在接受采访时表示:“机器的识别和人一样,人经过几千年的进化,用语言用文字记录和存储几千年的文明,所以看到桌子就知道是桌子,看到灵芝知道是灵芝。机器也需要不断理解更多的内容,有数据标签,它才能学习,才会有智能。数据的加工是一个长期存在的过程,由画框到基础词汇,慢慢形成自己的知识图谱,才能自我推理和思考。”
如果我们已经具备了一个庞大的数据集,要想完成一个具备监督模式的测试,则需要将这个数据集划分为训练集、验证集与测试集,并且这三个集合不能有交集。为了保证测试的准确性,划分集合的时候通常采取随机抽样的方式。
通俗来讲,训练集好比于上学时候用的课本与练习册,而验证集与测试集就分别是月考和期末考。数据标注的就是在训练集里通过打标签的方式教会系统识别,再通过模拟考试来检验学习成果。
随着人工智能的发展,数据的训练量非常大,数据标注公司应运而生。AI行业的快速发展需要海量高质量的标注数据作为支撑,截止目前国内已有大小近千家数据标注公司,几十万的数据标注员数量还会不断增加。相信在不久的将来无论是生产方面、制造业、生活服务还是金融,我们随处可见人工智能的影子。
上一篇
下一篇