Transformer 注意力机制孟宝亮2025-08-31人工智能268 在传统的 RNN / CNN 模型中,捕捉长距离依赖比较困难。注意力机制(Attention) 的核心思想是:在处理一个输入时,不是对所有信息“一视同仁”,而是动态地为不同位置的信息分配不同的权重。 Transformer 则完全基于注意力机制构建(没有 RNN、CNN),其核心是 自注意力(Self-Attention)。 1. Cross-Attention 2. Self-Attention 3. Multi-Head Attention 未经允许不得转载:一亩三分地 » Transformer 注意力机制