1. 请简述 Transformer 模型的基本结构和工作原理。
2. 什么是自注意力机制(Self-Attention Mechanism),它在大模型中起到了什么作用?
3. 自注意力机制为什么能提升并行化计算?
4. 编码器-解码器注意力层(Encoder-Decoder Attention)工作原理与作用是什么?
5. 在 Encoder-Decoder 注意力层中,如何确保 Decoder 准确捕捉输入的关键信息?
6. 多头自注意力机制(MHSA)的优势是什么?多头的数量如何影响模型性能?
7. BERT 和 GPT 的主要区别及预训练模型的挑战与选择是什么?
8. 为什么 Transformer 比 RNN 更适合处理长距离依赖?
9. 微调(Fine-Tuning)和迁移学习(Transfer Learning)的区别及应用场景是什么?