【NLP算法面经】腾讯、头条算法岗详细面经（★附面题整理★）

【NLP算法面经】腾讯、头条算法岗详细面经（★附面题整理★）

🌟 嗨，你好，我是青松！

🌈 自小刺头深草里，而今渐觉出蓬蒿。

NLP Github 项目推荐：

【AI 藏经阁】：https://gitee.com/fasterai/ai-e-book

介绍：该仓库主要分享了数百本 AI 领域电子书
【AI 算法面经】：fasterai/nlp-interview-handbook#面经

介绍：该仓库一网打尽互联网大厂NLP算法面经，算法求职必备神器
【大模型（LLMs）面试笔记】：https://gitee.com/fasterai/nlp-interview-handbook

介绍：该仓库汇总了 NLP 算法工程师高频面题，适合大模型初学者和正在准备面试的小伙伴希望能帮助各位同学缩短面试准备时间，不错过金三银四涨薪窗口，迅速收获心仪的Offer 🎉🎉🎉

文章目录

- 写在前面
- 字节：（2技术+1HR）
- - - 一面
    - 二面
    - HR面
- 腾讯：（3技术+1HR）
- - - 一面
    - 二面：
    - 三面：（应该就是总监面了）
    - HR面
- 总结
大模型（LLMs）高频面题全面整理（🌟2025 Offer 必备🌟）
- 一、大模型进阶面
- - [💯 DeepSeek篇](https://t.zsxq.com/YmHO4)
  - [💯 大模型编辑篇](https://t.zsxq.com/YmHO4)
  - [💯 大模型压缩篇](https://t.zsxq.com/YmHO4)
  - [💯 分布式训练篇](https://t.zsxq.com/YmHO4)
- 二、大模型微调面
- - [💯 有监督微调（SFT）篇](https://t.zsxq.com/YmHO4)
  - [💯 高效微调篇](https://t.zsxq.com/YmHO4)
  - [💯 提示学习篇](https://t.zsxq.com/YmHO4)
  - [💯 人类对齐训练（RLHF）篇](https://t.zsxq.com/YmHO4)
  - [💯 Prompt 工程篇](https://t.zsxq.com/YmHO4)
- 三、大模型（LLMs）基础面
- - [💯 大模型（LLMs）架构篇](https://t.zsxq.com/YmHO4)
  - [💯 注意力机制（Attention）篇](https://t.zsxq.com/YmHO4)
  - [💯 Transformer 理论篇](https://t.zsxq.com/YmHO4)
- 四、NLP 任务实战面
- - [💯 文本分类篇](https://t.zsxq.com/YmHO4)
  - [💯 命名实体识别（NER）篇](https://t.zsxq.com/YmHO4)
  - [💯 关系抽取篇](https://t.zsxq.com/YmHO4)
  - [💯 检索增强生成（RAG）篇](https://t.zsxq.com/YmHO4)
- 五、NLP 基础面
- - [💯 分词（Tokenizer）篇](https://t.zsxq.com/YmHO4)
  - [💯 词嵌入（Word2Vec）篇](https://t.zsxq.com/YmHO4)
  - [💯 卷积神经网络（CNN）篇](https://t.zsxq.com/YmHO4)
  - [💯 循环神经网络（RNN）篇](https://t.zsxq.com/YmHO4)
  - 💯 长短期记忆网络（LSTM）篇
  - [💯 BERT 模型篇](https://t.zsxq.com/YmHO4)
  - [💯 BERT 变体篇](https://t.zsxq.com/YmHO4)
  - [💯 BERT 实战篇](https://t.zsxq.com/YmHO4)
- 六、深度学习面
- - [💯 激活函数篇](https://t.zsxq.com/YmHO4)
  - [💯 优化器篇](https://t.zsxq.com/YmHO4)
  - [💯 正则化篇](https://t.zsxq.com/YmHO4)
  - [💯 归一化篇](https://t.zsxq.com/YmHO4)
  - [💯 参数初始化篇](https://t.zsxq.com/YmHO4)
  - [💯 过拟合篇](https://t.zsxq.com/YmHO4)
  - [💯 集成学习篇](https://t.zsxq.com/YmHO4)
  - [💯 模型评估篇](https://t.zsxq.com/YmHO4)

写在前面

本硕华南某985，有过两段实习经历，一段是大厂的算法实习，另一段是招行Fintech实习，虽然岗位都是机器学习，但工作的内容都和推荐相关，很感谢这两段实习带给我的成长，对春招找实习有非常大的帮助，面试常常被问到…

春招找实习面试了三家大厂，offer情况：「字节跳动（小程序平台）」、「腾讯（CDG广告）」
另外，「阿里」 交叉面面完了，面试官说下一面HR面…
（虽然三份投的也都是机器学习算法岗位，但聊了工作内容感觉也都是和推荐相关，这大概是我与推荐的缘分吧…）

字节：（2技术+1HR）

一面

自我介绍
项目/实习
RandomForest和XGBoost区别
XGB相对于GBDT的改进的地方
如何提特征？
防止过拟合？
手撕：寻找数组中是否存在超过一半的数字，时间复杂度O(N)
概率题：抛硬币一亿次都是正面，下一次是反面的概率有多大？看到概率题脱口而出的1/2（自己都笑了，虽然知道答案不是但面试过程交流下来感觉很轻松就没想那么多了），面试官也笑了说我们做机器学习的，就不能常规思维去想这个问题，从最大似然的角度思考blabla直接告诉我怎么分析了。
反问。

二面

自我介绍
一面面试官已经问过其中一个实习的项目了，还有其他项目想讲一下吗
为什么要选择RandomForest
中间问了一些和项目相关的算法基础知识
深度学习的东西用过哪些
RNN和LSTM，GRU的对比优缺点？
手撕：给定一个升序数组1，元素有重复，对每个元素算一下平方后得到新的数组2，问数组2中不相同的元素的个数？要求时间复杂度O(N),空间复杂度O(1)
方程题：我们有n个蛋，k层楼，假设蛋从第m层楼及以上往下扔会碎，现在要找到m，问在最坏的情况下至少需要试出多少次才能知道m。w(n,k)表示次数。写出状态转移方程w(n,k)。

注：写状态方程是很懵的，第一次遇到，自己说了思路（其实没啥思路但觉得也要开口讲些东西，哪怕错的也说明你有在思考），面试官超级耐心疯狂暗（明）示，最后一步一步写出来，最后他也说了虽然我一开始没思路，但是经过提醒之后每一步都能写出来也挺不错。（所以个人感觉面试的过程也是一个交流的过程，不是被试者单方面的output，说不定遇到的面试官超级nice，哪怕说错了也不会直接放弃你而是引导和暗示）

HR面

其实很惊讶没有三面…emm直接HR面然后就oc有被惊喜到…（可能是我面的部门海量hc？）

腾讯：（3技术+1HR）

一面

自我介绍。
涉及到的实习经历？如何构建特征？
分类模型怎么构建？（跟自己实习内容有关）
共享屏幕画GRU4Rec时序推荐模型的结构。（主要是负采样了）
推荐的评价指标有哪些。
归一化了解过哪些。
写LR的loss（这个是自己挖坑，本来只让说一下，当时共享屏幕，所以我就说了那我写出来吧，但感觉又会推导，所以想一步直接写出来最后的结果，就是经过sigmoid处理，差点翻车。。还好最后写出来了）
手撕：找出数组中第K大的数。leetcode原题，要求O(n)。

二面：

自我介绍。
问非计算机学院的，学过计算机基础的课程吗？他提了一下计算机网络（瞬间慌了，这是我学过最差的课了。。）还问了解过一些基础算法不是机器学习的算法，比如贪心搜索等等的。（还好用过）
说一面面试官已经问过项目了所以不再问了。。。（接下来就是疯狂问模型还有原理）
首先讲一个自己最熟悉的机器学习的模型/算法。（我讲了一下树模型）
RandomForest和XGB之间的差别。（讲了大概五六个点他表示比较满意）
追问：为什么RF关注方差，XGB关注偏差。
追问：XGB并行化如何实现。（自己讲了两三个点。问还有吗？再讲了一两个点）
追问：XGB对GBDT的改进的地方有哪些。（自己讲了两个点。问还有吗？再讲了一个点。再问还有吗。。）
追问：XGB使用正则项防止过拟合，L1和L2两个的原理是什么。（回答了L1，L2的作用，他说我回答的是这两个的结果不是原理，想知道为什么？自己有点想不起来，随便说了一下，他表示不太满意，说这方面还需要加强学习。）
LightGBM和XGB的区别（改进的地方）
追问：LightGBM如何并行化。
追问：防止过拟合的方法有哪些（讲了三四个点吧。。追问还有吗？再讲了一个点？再追问？？？陷入沉思中，他说你刚刚回答的都是从模型和结构上相关的角度，有没有其他角度？？我大概就是用过上面说的那些了。他说没有用过但是知道的也可以说一下。又从数据的角度讲了一些。）
用过分布式计算吗？做过大规模数据吗？（瑟瑟发抖说数据大概百万级。他说那肯定不需要分布式了，分布式都是亿级以上，好的没事这方面也是和业务相关以后还是要多学习。我说好的好的。还好在这个点没有为难我，无限感恩。）
算法题：找出数组中a+b=c的组合，其中abc都在数组里面。时间空间复杂度？

三面：（应该就是总监面了）

全程问的技术问题就三个吧

RF和GBDT、XGB和LGB的区别、优化（没问得很细）
在IEG做的项目基于什么平台？
深度学习应用在推荐系统的发展？
手撕：青蛙跳台阶，吃虫子，青蛙每次只能跳一阶或者二阶台阶，每个台阶的虫子是一个数组a[m]，青蛙最多只能跳n次，其中0<m<1000,0<n<100,问青蛙怎么样吃到最多的虫子？
反问。聊了一些业务~非常亲切nice

HR面

一些常规问题。感觉真诚一些自信一点好好回答都没问题的~

总结

关于算法基础，楼主是属于看东西比较慢但基础比较扎实一点点的人，对于简历上提到过的每一个算法都要真的会~
面试过程心态也要放好，记得看过一句话，面试是一个互动的过程，面试官也是希望问到你会的相关的东西，也庆幸一下自己遇到的面试官都超级nice，问到一些我不会的都会稍加引导和暗示，整个面试的过程都学到了很多东西。
关于做题，2020年之前还没有刷过leetcode，用了将近一个月的时间做完剑指offer和80%的leetcode hot，但题确实是真的不得不刷，阿里面试遇到的题就是自己没做的20%leetcode hot之一，真想锤自己一下…
有努力就会有收获，最后祝大家都能收到心仪的offer(^▽)~

大模型（LLMs）高频面题全面整理（🌟2025 Offer 必备🌟）

一、大模型进阶面

💯 DeepSeek篇

【大模型进阶面之 DeepSeek篇】你必须要会的高频面题 查看答案

一、概念篇
- Deepseek-V3的主要特点有哪些？
- DeepSeek-V3在推理速度方面表现出色的原因有哪些？
二、模型结构篇
- MLA
  - 什么是多头潜在注意力（MLA）？
  - MLA的计算流程是什么样的？
  - 训练时MLA需要配置哪些超参？
  - MLA相对于MHA有哪些改进？
- MoE
  - 什么是MoE？
  - DeepSeekMoE包含哪两种专家类型？
  - Share 专家和Router 专家的作用是什么？
  - 讲一下DeepSeekMoE的计算流程？
  - DeepSeekMoE是如何实现负载均衡的？
- MTP
  - 什么是Multi-Token Prediction（MTP）？
  - Multi-Token Prediction（MTP）有何作用？
  - 讲一下Multi-Token Prediction（MTP）的预测流程？
三、预训练篇
- Prefix-Suffix-Middle (PSM)数据格式是什么样的？
- DeepSeek预训练数据为何使用Prefix-Suffix-Middle (PSM)格式？
- 介绍一下Byte-level BPE？
- DeepSeek是如何进行长上下文扩展的？
- DeepSeek的使用YaRN进行长上下文扩展有哪两个阶段？
- DeepSeek预训练追求极致的训练效率的做法有哪些？
- 批量级负载均衡（Batch-Wise Load Balance）和顺序级负载均衡（Sequence-Wise Load Balance）有何区别？
- 使用MTP为何在提高计算效率的同时还能提升效果？
**四、有监督微调篇
- DeepSeek的SFT有哪几种数据？
- DeepSeek是如何构造Reasoning Data数据的？
- DeepSeek两种不同类型的SFT数据，区别是什么？
- DeepSeek在SFT训练时是如何加速训练过程的？
五、强化学习篇
- DeepSeek有哪两种奖励模型？
- Rule-Based RM和Model-Based RM的区别是什么？
- Rule-Based RM用在什么地方？有何作用？
- Model-Based RM用在什么地方？有何作用？
- DeepSeek是如何降低奖励欺诈风险的？
- DeepSeek为何使用Group Relative Policy Optimization（GRPO）？
- DeepSeek为何放弃Critic模型来估计状态的价值？
- DeepSeek是如何进行Self-Rewarding的？
- DeepSeek-V3从DeepSeek-R1中蒸馏知识有哪些影响？

💯 大模型编辑篇

【大模型进阶面之模型魔改篇】你必须要会的高频面题 查看答案

模型编辑（Model Editing）核心目标是什么？
对比重新预训练和微调，模型编辑的优势和适用场景是什么？
如何用模型编辑修正大语言模型中的知识错误？
如何量化评估模型编辑的五大性质？
模型编辑局部性如何避免“牵一发而动全身”的问题？
知识缓存法（如SERAC）的工作原理是什么？
附加参数法（如T-Patcher）如何在不改变原始模型架构的情况下实现编辑？
知识缓存法和附加参数法的优缺点有何优缺点？
ROME方法如何通过因果跟踪实验定位知识存储位置？
元学习法（如MEND）如何实现“学习如何编辑”？
元学习法的双层优化框架如何设计？
More …

💯 大模型压缩篇

【大模型进阶面之模型压缩篇】你必须要会的高频面题 查看答案

💯 为什么需要对大模型进行压缩和加速？
💯 什么是低秩分解？
💯 什么是奇异值分解（SVD）？
💯 权值共享为什么有效？
💯 什么是模型量化？
💯 什么是混合精度分解？
💯 什么是基于反馈的知识蒸馏？
💯 什么是基于特征的知识蒸馏？
💯 模型蒸馏的损失函数是什么？
💯 描述一下剪枝的基本步骤？
More …

💯 分布式训练篇

【大模型进阶面之分布式训练篇】你必须要会的高频面题 查看答案

PS架构和Ring-AllReduce架构有何不同？

什么是张量并行，如何使用集群计算超大矩阵？

讲一讲谷歌的GPipe 算法？
讲一讲微软的PipeDream算法？
ZeRO1、ZeRO2、ZeRO3分别做了哪些优化？
用DeepSpeed进行训练时主要配置哪些参数？
More …

二、大模型微调面

💯 有监督微调（SFT）篇

【大模型微调面之 SFT篇】你必须要会的高频面题 查看答案

💯 从零训练一个大模型有哪几个核心步骤？
💯 为什么要对LLM做有监督微调（SFT）？
💯 如何将一个基础模型训练成一个行业模型？
💯 如何准备SFT阶段的训练数据？
💯 如何自动生成指令构建SFT的训练数据？
💯 LM做有监督微调（SFT）变傻了怎么办？
💯 有监督微调（SFT）和人工偏好对齐（RLHF）有何区别？
More …

💯 高效微调篇

【大模型微调面之 PEFT篇】你必须要会的高频面题 查看答案

💯 全量微调与参数高效微调的区别是什么？
💯 什么是轻度微调？轻度微调有哪些常用方法？
💯 什么是BitFit微调？
💯 分层微调如何设置学习率？
💯 什么是适配器微调？适配器微调有哪些优势？
💯 讲一讲IA3微调？
💯 提示学习（Prompting）代表方法有哪些？
💯 指令微调（Instruct-tuning）和提示学习（Prompting）的区别是什么？
💯 详细说明LoRA的工作原理及其优势？
💯 LoRA存在低秩瓶颈问题，ReLoRA和AdaLoRA分别通过哪些方法改进？
💯 动态秩分配（如AdaLoRA）如何根据层的重要性调整秩？
More …

💯 提示学习篇

【大模型微调面之提示学习篇】你必须要会的高频面题 查看答案

💯 提示学习（Prompting）代表方法有哪些？
💯 前缀微调（Prefix-tining）的核心思想？
💯 提示微调（Prompt-tuning）的核心思想？
💯 P-tuning 的动机是什么？
💯 P-tuning v2 进行了哪些改进？
💯 提示微调（Prompt-tuning）与 Prefix-tuning 区别是什么？
💯 提示微调（Prompt-tuning）与 fine-tuning 区别是什么？
More …

💯 人类对齐训练（RLHF）篇

【大模型微调面之 RLHF篇】你必须要会的高频面题 查看答案

💯 RLHF有哪几个核心流程？

💯 RLHF与SFT的本质区别是什么？为什么不能只用SFT？

💯 什么是人类偏好对齐中的"对齐税"(Alignment Tax)？如何缓解？

💯 在强化学习中，基于值函数的和基于策略的的优化方法有何区别？

💯 什么是近端策略优化（PPO）？

💯 RLHF中的PPO主要分哪些步骤？

💯 PPO中的重要性采样(Importance Sampling)如何修正策略差异？

💯 DPO如何通过隐式奖励建模规避强化学习阶段？

💯 DPO vs PPO：训练效率与性能上限的对比分析？

💯 RLHF训练数据的格式是什么样的？

💯 Prompt 工程篇

【大模型微调面之提示工程篇】你必须要会的高频面题 查看答案

💯 Prompt工程与传统微调的区别是什么？
💯 如何规范编写Prompt？
💯 上下文学习三种形式（零样本、单样本、少样本）的区别？
💯 如何通过预训练数据分布和模型规模优化上下文学习效果？
💯 思维链（CoT）的核心思想是什么？
💯 按部就班（如 Zero-Shot CoT、Auto-CoT）、三思后行（如 ToT、GoT）、集思广益（如 Self-Consistency）三种 CoT 模式有何异同？
More …