LLM 相关面试问题及详解

Transformer 模型结构

1. 请简述 Transformer 模型的基本结构和工作原理。

2. 什么是自注意力机制(Self-Attention Mechanism),它在大模型中起到了什么作用?

3. 自注意力机制为什么能提升并行化计算?

4. 编码器-解码器注意力层(Encoder-Decoder Attention)工作原理与作用是什么?

5. 在 Encoder-Decoder 注意力层中,如何确保 Decoder 准确捕捉输入的关键信息?

6. 多头自注意力机制(MHSA)的优势是什么?多头的数量如何影响模型性能?

BERT vs GPT

7. BERT 和 GPT 的主要区别及预训练模型的挑战与选择是什么?

8. 为什么 Transformer 比 RNN 更适合处理长距离依赖?

微调和迁移学习

9. 微调(Fine-Tuning)和迁移学习(Transfer Learning)的区别及应用场景是什么?