GPT

Generative Pre-trained Transformer

GPT(Generative Pre-trained Transformer )是由OpenAI开发的一系列基于 Transformer 架构的预训练语言模型。它通过在海量文本数据上进行自回归语言建模(即预测下一个词)的预训练,学习生成连贯、高质量的文本,是当前大语言模型领域的代表性模型。

核心思想:单向生成与自回归

BERT的双向编码器不同,GPT系列模型主要使用Transformer解码器 (Decoder) 部分。这意味着GPT模型在生成文本时,只能看到当前词语的左侧上下文(即前面的词语),而不能看到右侧的词语。这种单向性使其天然适合于文本生成任务。

GPT的核心思想是:

  1. 大规模预训练: 在海量无标签文本数据上进行预训练,学习语言的统计规律和世界知识。
  2. 自回归生成: 每次生成一个词,然后将生成的词作为新的输入,继续生成下一个词,直到生成完整的序列。

预训练任务:下一个词预测

GPT的预训练任务非常直接:自回归语言建模 (Autoregressive Language Modeling),也称为“下一个词预测”。

模型演进与涌现能力

GPT系列模型通过不断增加参数规模和训练数据量,展现出惊人的涌现能力 (Emergent Abilities),即在小模型中不具备的能力,在大模型中突然出现。

微调与对齐

为了使预训练的GPT模型更好地服务于用户,OpenAI引入了两个关键步骤:

  1. 指令微调 (Instruction Fine-tuning): 使用高质量的“指令-回答”数据集对模型进行微调,使其学会理解和遵循人类的指令。
  2. 基于人类反馈的强化学习 (RLHF): 通过收集人类对模型输出的偏好数据,训练一个奖励模型,然后使用强化学习来优化GPT模型,使其生成更符合人类偏好、更安全、更无害的回答。这是ChatGPT成功的关键。

优缺点分析

优点 (Pros) 缺点 (Cons)
强大的文本生成能力:能够生成高质量、连贯、富有创造性的文本。 计算资源需求大:预训练和推理需要巨大的计算资源。
上下文学习 (In-Context Learning):通过少量示例即可完成新任务,无需微调。 幻觉 (Hallucination):可能生成看似合理但事实错误或虚构的信息。
广泛的知识储备:通过大规模预训练,模型掌握了丰富的世界知识。 可控性挑战:难以精确控制生成文本的风格、内容和事实准确性。
多模态能力:最新版本支持图像输入。 推理能力有限:在复杂逻辑推理和数学问题上仍有局限。