NER 标签体系

序列标注任务指的把原始序列元素逐一标注并生成新标签序列的任务叫做序列标注任务。以中文命名实体识别任务为例,主要的标签体系有:

  1. BIO 标签体系
  2. BIEO 标签体系
  3. BIESO 标签体系

1. BIO 标签体系

BIO 标签体系中将输出标签以 Begin Tag、Inside Tag、Other Tag 来表示。我们在进行中文命名实体识别时,常见的就是识别人名(PER)、地名(LOC)、公司/机构名(ORG)、以及其他元素(O), 使用 BIO 来表示的话,就会有:B-PER、I-PER、B-ORG、I-ORG、B-LOC、I-LOC、O 共输出 7 种标签。这种体系结构标签数量少,对于模型训练来说更加快速和高效,在样本较少的情况下,模型预测7个标签比预测10个、13个标签更加准确。缺点是样本增多后,BIO 体系的标签往往不如 BIEO、BIESO 两种标签体系。

2. BIEO 标签体系

BIEO 标签体系在 BIO 标签体系基础上增加了 E 标签,该标签表示 End Tag,对于(PER)、地名(LOC)、公司/机构名(ORG)、以及其他元素(O) 就会多了 E-PER、E-LOC、E-ORG 三种标签,总标签数量就变成 7 + 3 = 10 种标签。需要注意的是,如果实体只由一个字符构成,则不存在 I 和 E 标签。增加了 E 标签方便对于实体的 I 字符和 E 字符做区别,这种标签体系能够学到实体的开头、中间、结束三部分不同的内容,相关实验也表明其效果略优于 BIO 的标签体系。

3. BIESO 标签体系

BIESO 标签体系在 BIEO 基础上增加了 S 标签,该标签表示 Single 用于标识单字符的实体。这时,多字符的实体和单字符的实体就能区分出来了,当实体是一个字符时,就不再用 B 来标识了,而是用 S 来标识。现在标签数量在 BIEO 的基础上增加了 S-PER、S-ORG、S-LOC 三个标签,共有 13 种输出标签。

文章内容整理来自机械工业出版社的《会话式AI》 。

未经允许不得转载:一亩三分地 » NER 标签体系