Transformer 自注意力机制(Self-Attention)

在传统的 RNN/CNN 模型中,捕捉长距离依赖比较困难。注意力机制(Attention) 的核心思想是:在处理一个输入时,不是对所有信息“一视同仁”,而是动态地为不同位置的信息分配不同的权重。

Transformer 则完全基于注意力机制构建(没有 RNN、CNN),其核心是 自注意力(Self-Attention)

1. 问题场景

1. Cross-Attention

2. Self-Attention

3. Multi-Head Attention

未经允许不得转载:一亩三分地 » Transformer 自注意力机制(Self-Attention)
评论 (0)

6 + 6 =