LLM Interview

发布于 2026/3/7·

1. 阿里淘天

https://www.nowcoder.com/feed/main/detail/78d6c8c30f1741e6b0a1a02d7b4bbfab?sourceSSR=search

Transformer 中 Attention 的本质是什么？你能从数学角度简要解释一下吗？

在Agent多轮对话任务中，你觉得Attention的局限性体现在哪些方面？
简要介绍一下SFT的核心流程，以及数据集的构建策略，SFT之后常见的Post-Training还有哪些？它们之间的目的有何区别？
什么是RAG，它是怎么提升生成质量的？与传统检索＋模型生成的流程有何不同？如何评估一个RAG系统是否work的？
PPO和DPO在大模型对齐中的主要区别是什么？DPO训练通常有哪些注意事项？用过GRPO么？
项目里的Modular Agent，你能讲讲它是如何实现多步规划的吗？
项目提到了多个工具调用链路，调度策略是如何设计的？是否有异常fallback策略？
Agent评估体系包括哪些维度？如何衡量planning能力 vs hallucination rate？
项目里微调Qwen，选择的训练阶段和Loss函数是如何决定的？
Prompt自动推荐模块用了哪些优化策略？有没有尝试过Prompt压缩或embedding表示的方式？
场景题：假如一个Agent 推理链路包含3个工具+高频请求，系统整体延迟较高，你会如何优化？
代码：岛屿数量