R-BERT（Relation-BERT）

模型架构来自论文：https://arxiv.org/pdf/1905.08284.pdf，文章内容主要来自对这篇 Paper 的学习。Relation Classification 是一个重要的 NLP 任务，它主要用于对输入文本中的实体进行关系分类。例如，我们有一行文本：

谢芮芝之子谢舒扬，为荣剑尘口盟弟子而未正式拜师，孙谢天顺为相声演员。

在这行文本中出现了两个实体词汇：

荣剑尘	谢舒扬

Relation Classification 任务就是结合输入的文本，来判断文本中的两个实体词 “荣剑尘” 和 “谢舒扬” 的关系是否为 “师生”，当然 Relation Classification 不仅仅是对人物关系，还可以对人物和地点进行关系分类等等。

进行 Relation Classification 我们可以使用卷积神经网络、或者递归神经网络。在该篇论文中作者利用 Bert 模型来实现了 Relation Classification 模型，模型架构如下图所示：

模型的简要的过程如下：

将 “谢芮芝之子谢舒扬，为荣剑尘口盟弟子而未正式拜师，孙谢天顺为相声演员。” 中的实体词 “荣剑尘” 和 “谢舒扬” 两侧添加特殊的 SEP TOKEN 用于标识；
将带有 SEP TOKEN 的文本输入到 BERT 网络，计算得出每一个字/词的多层自注意力表示；
根据掩码得到实体词 “荣剑尘” 和 “谢舒扬” 的向量表示，注意: 此处我们得出了每一个字的向量表示，实体词的向量表示可以通过计算平均向量得到；
接下来，对两个实体词（”荣剑尘”、”谢舒扬”）的向量表示进行线性变换；
得到整个句子的向量表示即: [CLS] 特殊标签对应的向量，并将其和两个实体词的向量进行拼接，得到了一个更大维度的向量；
将大向量拼接送入线性层得到关系标签的预测 Logits，并通过 Cross Entropy 计算损失。

具体的过程如下：

文本经过添加特殊标签处理之后，送入 BERT 得到了每个字/词的自注意力张量表示。接下来，通过下面公式计算每个实体词的表示：

这里需要知道的是, \(W_1=W_2，b_1=b_2\)，即：两个实体词的共享同一个线性层的参数。对于 [CLS] TOKEN 对应的最后隐藏层张量 \(H_0\) 表示也进行如上的变换，计算公式如下：

我们在使用 transformers 库中实现的 BERT 模型时，该模型会输出中包含了 pooler_output，https://mengbaoliang.cn/?p=30665 该输出即对 [CLS] TOKEN 进行如上计算之后得出的结果，我们可以直接使用，无须重新增加线性层。

接下来，将三个向量进行拼接，送入线性层、SoftMax 得到预测概率：

Paper 中还提到在训练过程中，全连接之前应用了 Dropout 层防止过拟合。