Transformer 注意力机制

在传统的 RNN / CNN 模型中,捕捉长距离依赖比较困难。注意力机制(Attention) 的核心思想是:在处理一个输入时,不是对所有信息“一视同仁”,而是动态地为不同位置的信息分配不同的权重。

Transformer 则完全基于注意力机制构建(没有 RNN、CNN),其核心是 自注意力(Self-Attention)

1. Cross-Attention

2. Self-Attention

3. Multi-Head Attention

未经允许不得转载:一亩三分地 » Transformer 注意力机制
评论 (0)

5 + 6 =