自注意力机制是 Transformer 架构的核心组件，它最早在 2017 年的论文《Attention Is All You Need》中被提出。它的作用是通过动态地计算每个 token 与其他 token 之间的关系，从而对文本序列中的每个 token 进行表征，使其能更好地捕捉上下文信息。

在文本相关任务中，我们首要解决的挑战是如何将文本中的 token 转换为数值向量，这个数值向量不仅需要保持 token 的语法信息，还需要能够更好地表征 token 之间的 语义关系，比如近义词、反义词、上下文的关系等。

为了得到高质量的 token 向量表示，早期我们尝试了多种方法，包括基于统计的 one-hot 和 TF-IDF 向量，它们虽然能捕捉到一些基础的语法关系，但通常无法很好地表征词汇之间的语义关系。随着研究的深入，基于神经网络的 word2vec 等方法应运而生，这些方法通过浅层神经网络的训练，能够生成更具语义信息的词向量。

然而，这些方法的一个缺点是它们的词向量表示通常是静态的，也就是说，无论上下文如何变化，词向量始终是固定的。这使得它们难以处理一些复杂的语言场景，尤其是在处理多义词、同义词、语境变化时，无法动态调整词向量来适应不同的语境。

为了解决这个问题，RNN（循环神经网络） 的出现提供了一种新的思路。RNN 通过引入 记忆机制，能够根据上下文动态地调整 token 的表示，尤其是在处理时间序列数据（如文本）时，能够根据前后文的输入来更新和传递信息。因此，RNN 在很多文本任务中表现得非常出色，它可以有效捕捉短期的上下文信息。

但是，RNN 在处理 长序列 时，存在一个显著的缺陷：由于其逐步传递信息的特性，长序列中前面 token 的信息可能会随着序列的展开逐渐消失，尤其是在遇到非常长的文本时，早期的信息几乎无法影响后面的 token 表示。这是因为 梯度消失 或 梯度爆炸 的问题，导致 RNN 难以捕捉到长期依赖关系。

为了解决这一问题，自注意力机制（Self-Attention） 被提出，并成为了处理长文本序列的关键技术。自注意力机制可以在整个序列中动态地为每个 token 赋予不同的权重，捕捉长距离的依赖关系，而不受序列长度的限制。通过自注意力机制，每个 token 可以根据上下文来调整自己在整个句子中的重要性，这使得模型能够更好地理解 全局信息 和 局部信息 的关系，从而提升 token 表示的质量。

自注意力机制的优点在于它能够 并行处理 序列中的每个 token，并且能够灵活捕捉到不同上下文中的语义信息。因此，它在处理长文本、复杂语境以及各种自然语言处理任务中（如翻译、文本生成等）表现出色，成为许多现代预训练模型（如 BERT、GPT 等）的基础。

注意力机制（Self-Attention Mechanism）

1. 计算过程

取消回复

文章目录