GPT2 （Generative Pre-trained Transformer）

GPT-2 是 OpenAI 于 2019 年推出的一个基于 Transformer 的解码器（Decoder）架构的自然语言处理模型。它通过无监督学习大规模文本数据进行预训练，并可用于多种自然语言任务，如文本生成、翻译、摘要和问答等。其主要特点包括：

自注意力机制（Self-Attention）：使用多头自注意力（Multi-Head Attention）来捕捉长距离依赖关系。
因果掩码（Causal Masking）：确保生成时只能关注当前及之前的词，而不能看到未来的词，符合自回归（autoregressive）特性。
层归一化（Layer Normalization）：在残差连接后使用层归一化来稳定训练。
位置编码（Positional Encoding）：由于 Transformer 结构本身不具备序列顺序信息，GPT-2 使用可学习的绝对位置编码来引入序列顺序。

GPT-2 采用 无监督预训练（Unsupervised Pretraining）+ 任务微调（Fine-tuning） 的方式：

无监督预训练
- 训练目标是 最大化文本数据的对数似然（Log-Likelihood）
- 训练数据来自大规模文本（如网络文章、书籍、新闻等）。
- 训练方式采用 自回归语言建模（Autoregressive Language Modeling, ALM），即只使用前面已生成的词预测下一个词。
任务微调
- 通过 少量任务特定数据 对 GPT-2 进行微调，使其适用于特定任务，如问答、翻译、代码生成等。
- 由于 GPT-2 是一个强大的通用文本生成模型，很多任务可以通过 零样本学习（Zero-shot Learning） 或 少样本学习（Few-shot Learning） 来实现。

OpenAI 发布了多个不同大小的 GPT-2 版本，参数规模分别为：

参数规模越大，模型的生成能力越强，但计算资源需求也越高。

GPT-3 相对于 GPT2 ：

GPT-3 的主要提升：