
文本标注是对文本进行特征标记的过程,对其打上具体的语义、构成、语境、目的、情感等数据标签,标注好的数据可以用于机器人学习文本中含有的意图或情感,使机器可以更加深入理解人类语言。
文本标注常见的任务类型:
实体标注
实体即具有具体而真实的形态或结构的事物,能够为人们所感知与亲手接触。实体是一种概念,一般指文本中具有特定意义或指代性强的名称词,包括人名、地名、组织机构名、日期时间、专有名词等。
关系标注
关系标注就是从一段文本中首先找出实体,然后判断两者之间所存在的实际关系,例如:人与人之间的“同事”关系、“同学”关系、“师生”关系,再进行标注。
事件标注
事件是特定的人、物在特定的时间、地点相互作用的客观事实。通常来说,在事件标注中需要抽取的要素主要包括事件的主体、客体、时间、地点、原因、结果等。
分类标注
分类标注是自然语言处理的一个基本任务,是指试图推断出给定的文本(句子、文档等)的标签或标签集合。
问答标注
原始文本中的内容是标注者标注的依据,从文本中抽取问题和对应的答案。分为半抽取半生成的混合式问答和抽取式问答。
对话语料构建
对话语料构建是指根据规定的对话路径、要求描述以及知识库等模拟真实的应用场景,构建真实的对话,并在构建对话的过程中,针对每句对话所涉及的知识点进行查找并关联和回填槽值。
除此之外,文本标注还包括依存句法标注、意图标注、知识图谱验证等...
上一篇
下一篇