1. 请简述 Transformer 模型的基本结构和工作原理。
Transformer 由编码器(Encoder)和解码器(Decoder)组成。核心特点包括多头自注意力机制、前馈神经网络、层归一化和残差连接。编码器处理输入序列,解码器生成输出序列。自注意力机制允许模型捕捉序列中的长距离依赖关系。
2. 什么是自注意力机制(Self-Attention Mechanism),它在大模型中起到了什么作用?
自注意力机制通过计算输入序列中每个元素与其他元素之间的相关性,帮助模型捕捉全局依赖关系。它使模型能够理解上下文关系,有效捕捉长距离依赖,并从多个'视角'捕捉信息。
3. 自注意力机制为什么能提升并行化计算?
自注意力机制可以同时处理输入序列中的所有元素,每个时间步的计算互相独立。这与传统的 RNN 不同,RNN 需要顺序处理每个时间步的输入。因此,自注意力机制大大提升了并行化的可能性。
4. 编码器-解码器注意力层(Encoder-Decoder Attention)工作原理与作用是什么?
编码器-解码器注意力层允许解码器关注编码器的输出。它使用查询(Query)来关注编码器的输出(Key/Value),通过点积计算注意力分数,然后使用 Softmax 归一化得到注意力权重。这个机制使得解码器可以动态关注输入序列的不同部分,对于生成任务(如机器翻译)至关重要。
5. 在 Encoder-Decoder 注意力层中,如何确保 Decoder 准确捕捉输入的关键信息?
使用多头注意力机制(MHSA)让模型从不同的视角关注输入的各部分信息。通过层归一化(Layer Norm)和残差连接(Residual Connections)确保信息不丢失,并保持梯度稳定。
6. 多头自注意力机制(MHSA)的优势是什么?多头的数量如何影响模型性能?
MHSA 允许模型从不同的子空间学习丰富的上下文信息,增强了处理复杂任务的能力。增加头数可以提升模型对多层次特征的捕捉能力,但过多的头数可能导致计算开销增加和权重稀释。头数的选择通常依赖于实验和任务复杂度。
7. BERT 和 GPT 的主要区别及预训练模型的挑战与选择是什么?
BERT 是双向编码模型,适用于理解任务;GPT 是单向自回归模型,适用于生成任务。BERT 使用掩码语言模型预训练,而 GPT 使用自回归语言建模。BERT 在理解任务上表现更好,GPT 在生成任务上更强。选择时需考虑任务类型、计算资源和数据可用性。
8. 为什么 Transformer 比 RNN 更适合处理长距离依赖?
Transformer 可以并行处理输入序列中的所有时间步,而 RNN 需要顺序计算。Transformer 的自注意力机制可以直接捕捉序列中所有位置的依赖关系,而 RNN 在处理长序列时容易发生梯度消失或梯度爆炸问题。
9. 微调(Fine-Tuning)和迁移学习(Transfer Learning)的区别及应用场景是什么?
微调是在预训练模型基础上对整个模型进行再训练,适用于数据量充足的任务。迁移学习是将预训练模型的知识迁移到新任务上,通常只调整模型的最后几层,适用于数据量较少的任务。微调旨在优化模型以更好地适应特定任务,而迁移学习旨在加快新任务的学习过程。