机器学习100道经典面试题库（二）

机器学习100道经典面试题库（31-60）

在大规模的语料中，挖掘词的相关性是一个重要的问题。以下哪一个信息不能用于确定两个词的相关性。

A、互信息

B、最大熵

C、卡方检验

D、最大似然比

答案：B

解析：最大熵代表了整体分布的信息，通常具有最大熵的分布作为该随机变量的分布，不能体现两个词的相关性，但是卡方是检验两类事务发生的相关性。所以选B【正解】

基于统计的分词方法为（）

A、正向最大匹配法

B、逆向最大匹配法

C、最少切分

D、条件随机场

答案：D

解析：第一类是基于语法和规则的分词法。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来进行词性标注,以解决分词歧义现象。因为现有的语法知识、句法规则十分笼统、复杂,基于语法和规则的分词法所能达到的精确度远远还不能令人满意,目前这种分词系统还处在试验阶段。第二类是机械式分词法（即基于词典）。机械分词的原理是将文档中的字符串与词典中的词条进行逐一匹配,如果词典中找到某个字符串,则匹配成功,可以切分,否则不予切分。基于词典的机械分词法,实现简单,实用性强,但机械分词法的最大的缺点就是词典的完备性不能得到保证。据统计,用一个含有70000个词的词典去切分含有15000个词的语料库,仍然有30%以上的词条没有被分出来,也就是说有4500个词没有在词典中登录。第三类是基于统计的方法。基于统计的分词法的基本原理是根据字符串在语料库中出现的统计频率来决定其是否构成词。词是字的组合,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映它们成为词的可信度。

在下面的图像中，哪一个是多元共线（multi-collinear）特征？

A、图 1 中的特征

B、图 2 中的特征

C、图 3 中的特征

D、图 1、2 中的特征

E、图 2、3 中的特征

F、图 1、3 中的特征

答案：D

解析：多个变量高度相关时称为多元共线性，图1特征之间高度正相关，图 2特征之间高度负相关，所以这两个图的特征是多元共线特征，所以答案选D。

线性回归的基本假设不包括哪个？

A、随机误差项是一个期望值为0的随机变量

B、对于解释变量的所有观测值，随机误差项有相同的方差

C、随机误差项彼此相关

D、解释变量是确定性变量不是随机变量，与随机误差项之间相互独立

E、随机误差项服从正态分布

答案：C

解析：线性回归基本假设: 1、随机误差项期望值或平均值为0； 2、随机误差项服从正态分布; 3、随机误差项彼此不相关； 4、对于解释变量的所有观测值，随机误差项有相同的方差； 5、解释变量是确定性变量，不是随机变量，与随机误差项彼此之间相互独立； 6、解释变量之间不存在精确的(完全的)线性关系, 即解释变量的样本观测值矩阵是满秩矩阵。

下面哪些对「类型 1（Type-1）」和「类型 2（Type-2）」错误的描述是错误的？

A、类型 1 通常称之为假正类，类型 2 通常称之为假负类

B、类型 2 通常称之为假正类，类型 1 通常称之为假负类

C、类型 1 错误通常在其是正确的情况下拒绝假设而出现

答案：B

解析：在统计学假设测试中，I 类错误即错误地拒绝了正确的假设即假正类错误，II 类错误通常指错误地接受了错误的假设即假负类错误。

给线性回归模型添加一个不重要的特征可能会造成？

A、增加 R-squar

B、减少 R-square

答案：A

解析：线性回归中，R-squared描述的是输入变量（特征）对输出变量的解释程度。在单变量线性回归中R-squared 越大，说明拟合程度越好；而在多变量的情况下，无论增加的特征与输出是否存在关系（即是否重要），R-squared 要么保持不变，要么增加。故本题中可能的选项只有A。（本题中增加一个特征后至少有两个特征，所欲属于多特征范畴）多变量线性回归使用adjusted R-squared评估模型效果。并且增加一个特征变量，如果这个特征有意义，Adjusted R-Square 就会增大，若这个特征是冗余特征，Adjusted R-Squared 就会减小。单变量线性回归中，R-squared和adjusted R-squared是一致的，即重要特征使R-squared增大，冗余特征使R-squared减小。

关于 ARMA 、 AR 、 MA 模型的功率谱，下列说法正确的是（）

A、MA模型是同一个全通滤波器产生的

B、MA模型在极点接近单位圆时，MA谱是一个深谷

C、AR模型在零点接近单位圆时，AR谱是一个尖峰

D、RMA谱既有尖峰又有深谷

答案：D

解析：MA模型滑动平均模型，模型参量法谱分析方法之一，也是现代谱估中常用的模型。用MA模型法求信号谱估计的具体作法是：①选择MA模型，在输入是冲激函数或白噪声情况下，使其输出等于所研究的信号，至少应是对该信号一个好的近似。②利用已知的自相关函数或数据求MA模型的参数。③利用求出的模型参数估计该信号的功率谱。 AR 模型(auto regressive model)自回归模型，模型参量法高分辨率谱分析方法之一，也是现代谱估计中常用的模型。用AR模型法求信具体作法是：①选择AR模型，在输入是冲激函数或白噪声的情况下，使其输出等于所研究的信号，至少，应是对该信号的一个好的近似。②利用已知的自相关函数或数据求模型的参数。③利用求出的模型参数估计该信号的功率谱。 ARMA模型(auto regressive moving average model)自回归滑动平均模型，模型参量法高分辨率谱分析方法之一。

符号集 a 、 b 、 c 、 d ，它们相互独立，相应概率为 1/2 、 1/4 、 1/8/ 、 1/16 ，其中包含信息量最小的符号是（）

A、a

B、b

C、c

D、d

答案：A

解析：由信息量公式 I(X) = - log[p(X)] 知，概率越大，信息量越小，选A I(a) = 1bit I(b) = 2bit I© = 3bit I(d) = 4bit

下列哪个不属于常用的文本分类的特征选择算法？

A卡方检验值

B互信息

C信息增益

D主成分分析

答案：D

解析：主成分分析是特征转换算法（特征抽取），而不是特征选择

在数据清理中，下面哪个不是处理缺失值的方法?

A、估算

B、整例删除

C、变量删除

D、成对删除

答案：D

解析：数据清理中，处理缺失值的方法有两种：一、删除法： 1）删除观察样本 2）删除变量：当某个变量缺失值较多且对研究目标影响不大时，可以将整个变量整体删除 3）使用完整原始数据分析：当数据存在较多缺失而其原始数据完整时，可以使用原始数据替代现有数据进行分析 4）改变权重：当删除缺失数据会改变数据结构时，通过对完整数据按照不同的权重进行加权，可以降低删除缺失数据带来的偏差二、查补法：均值插补、回归插补、抽样填补等

关注我，不定时更新机器学习面试题库

统计模式分问题中，当先验概率未知时，可以使用（）

A、最小最大损失准则

B、最小误判概率准则

C、最小损失准则

D、N-P判决

E、选项A和D

答案：E

解析：最小最大损失规则主要是解决在使用最小损失规则时先验概率未知或难以计算的问题的，选A；最小误判概率准则就是判断p(w1|x)和p(w2|x)哪个大，x为特征向量，w1和w2为两分类，根据贝叶斯公式，需要用到先验知识，不选B；最小损失准则中需要用到先验概率，不选C；在贝叶斯决策中，对于先验概率未知时可以使用聂曼-皮尔逊决策(N-P决策)来计算决策面，选D。综上所述，答案选E。

决策树的父节点和子节点的熵的大小关系是什么？

A. 决策树的父节点更大

B. 子节点的熵更大

C. 两者相等

D. 根据具体情况而定

答案：D

解析：假设一个父节点有2正3负样本，进一步分裂情况1：两个叶节点（2正，3负）；情况2：两个叶节点（1正1负，1正2负）。分别看下情况1和情况2，分裂前后确实都有信息增益，但是两种情况里不是每一个叶节点都比父节点的熵小。

语言模型的参数估计经常使用MLE（最大似然估计）。面临的一个问题是没有出现的项概率为0，这样会导致语言模型的效果不好。为了解决这个问题，需要使用（）

A、平滑

B、去噪

C、随机插值

D、增加白噪音

答案：A

解析：A，拉普拉斯平滑假设，将分子和分母各加上一个常数项。

逻辑回归与多元回归分析有哪些不同？

A、逻辑回归预测某事件发生的概率

B、逻辑回归有较高的拟合效果

C、逻辑回归回归系数的评估

D、以上全选

答案：D

解析：逻辑回归是用于分类问题，我们能计算出一个事件/样本的概率；一般来说，逻辑回归对测试数据有着较好的拟合效果；建立逻辑回归模型后，我们可以观察回归系数类标签(正类和负类)与独立变量的的关系。

"过拟合是有监督学习的挑战，而不是无监督学习"以上说法是否正确：

A、正确

B、错误

答案：B

解析：监督学习和非监督学习都存在过拟合的问题。

中文同义词替换时，常用到Word2Vec，以下说法错误的是

A、Word2Vec基于概率统计

B、Word2Vec结果符合当前预料环境

C、Word2Vec得到的都是语义上的同义词

D、Word2Vec受限于训练语料的数量和质量

答案：C

解析：Word2vec，为一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本。网络以词表现，并且需猜测相邻位置的输入词，在word2vec中词袋模型假设下，词的顺序是不重要的。训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系。该向量为神经网络之隐藏。 Word2vec依赖skip-grams或连续词袋（CBOW）来建立神经词嵌入。

假定你用一个线性SVM分类器求解二类分类问题，如下图所示，这些用红色圆圈起来的点表示支持向量

如果移除这些圈起来的数据，决策边界（即分离超平面）是否会发生改变？

A、Yes

B、No

答案：B

解析：一般来说，移除支持向量决策边界会发生变化；移除非支持向量决策边界不会发生变化。但就本题的数据分布来说，移除支持向量后新的决策边界和旧的决策边界是一样的。

如果将数据中除圈起来的三个点以外的其他数据全部移除，那么决策边界是否会改变？

A、会

B、不会

答案：B

解析：决策边界只会被支持向量影响，跟其他点无关。

关于SVM泛化误差描述正确的是

A、超平面与支持向量之间距离

B、SVM对未知数据的预测能力

C、SVM的误差阈值

答案：B

解析：统计学中的泛化误差是指对模型对未知数据的预测能力。

如果惩罚参数C趋于无穷，下面哪项描述是正确的？

A、若最优分离超平面存在，必然能够将数据完全分离

B、软间隔分类器能够完成数据分类

C、以上都不对

答案：A

解析：如果误分类惩罚很高，软间隔不会一直存在，因为没有更多的误差空间

关注我，不定时更新机器学习面试题库

以下关于SVM软间隔描述正确的是

A、允许一定量的样本分类错误

B、不允许样本分类错误

答案：A

解析：硬间隔：完全分类准确，其损失函数不存在；其损失值为0；只要找出两个异类正中间的那个平面；软间隔：允许一定量的样本分类错误；优化函数包括两个部分，一部分是点到平面的间隔距离，一部分是误分类的损失个数；C是惩罚系数，误分类个数在优化函数中的权重值；权重值越大，误分类的损失惩罚的越厉害。误分类的损失函数可分为hinge损失，指数损失，对率损失。而经常使用的或者说默认的是使用了损失函数为hinge损失的软间隔函数。

训练SVM的最小时间复杂度为O(n2)，那么一下哪种数据集不适合用SVM?

A、大数据集

B、小数据集

C、中等大小数据集

D、和数据集大小无关

答案：A

解析：A 由题干前半句话训练SVM的最小时间复杂度为O(n2)可知大数据集不适合训练SVM。

SVM的效率依赖于

A、核函数的选择

B、核参数

C、软间隔参数

D、以上所有

答案：D

解析：SVM的效率依赖于以上三个基本要求，它能够提高效率，降低误差和过拟合

在线性可分的情况下，支持向量是那些最接近决策平面的数据点

A、对

B、错

答案：A

解析：A 在线性可分的情况下，支持向量在间隔边界上；在线性不可分的情况下，支持向量或者在间隔边界上，或者在间隔边界与分离超平面之间，或者在分离超平面误分一侧。

SVM在下列那种情况下表现糟糕

A、线性可分数据

B、清洗过的数据

C、含噪声数据与重叠数据点

答案：C

解析：当数据中含有噪声数据与重叠的点时，要画出干净利落且无误分类的超平面很难

假定你使用了一个很大γ值的RBF核，这意味着：

A、模型将考虑使用远离超平面的点建模

B、模型仅使用接近超平面的点来建模

C、模型不会被点到超平面的距离所影响

D、以上都不正确

答案：B

解析：B γ 越大，模型对训练数据的拟合效果越好，当 γ 很大时，模型会对数据过拟合，即：分类超平面波动较大，几乎是贴着训练数据的，如图所示：

综上所述，如果使用了一个很大 γ 值的RBF核，这意味着模型仅使用接近超平面的点来建模，答案选B。

SVM中的代价函数的参数表示：

A、交叉验证的次数

B、使用的核

C、误分类与模型复杂性之间的平衡

D、以上均不是

答案：C

解析：代价参数决定着SVM能够在多大程度上适配训练数据。如果你想要一个平稳的决策平面，代价会比较低；如果你要将更多的数据正确分类，代价会比较高。可以简单的理解为误分类的代价。

假定你使用SVM学习数据X，数据X里面有些点存在错误。现在如果你使用一个二次核函数，多项式阶数为2，使用惩罚参数C作为超参之一。当你使用较大的C（C趋于无穷）时，对于训练集数据：

A、仍然能正确分类数据

B、不能正确分类

C、不确定

D、以上均不正确

答案：A

解析：C是惩罚参数，它的值越大，对误分类的惩罚就越大，分类的正确率就越高，对训练数据的拟合效果越好，当C趋于无穷大时，模型过拟合，对于训练集数据可以实现正确分类，答案选A。补充：若题目问的是对于测试数据集的分类效果，则应该选C。因为模型过拟合时，往往在测试集数据上的分类误差会变大，即：一部分分对，一部分分错。