机器学习简答题

1、请简述人工智能和机器学习，深度学习的关系？

机器学习是人工智能的一个实现途径。深度学习是机器学习的一个方法发展而来

2、根据数据集组成不同，通常可以把机器学习算法分为哪四类？

监督学习、无监督学习、半监督学习、强化学习

3、请简述什么是监督学习？什么是无监督学习？

有监督学习是指训练数据中包含了输入和输出的标签信息，目标是通过已知输入和输出来预测新数据的标签。

无监督学习是指训练数据中只有输入特征，没有输出标签，目标是根据数据的内在结构、分布或相似性进行聚类、降维等操作。

具体例子：

假设我们有一组包含房屋面积和销售价格的数据。如果我们要根据已有数据预测新房屋的销售价格，这就是一个有监督学习的问题。而如果我们只有房屋面积的数据，但没有任何关于价格的信息，我们可以使用聚类算法将相似大小的房屋分组，这是一个无监督学习的问题。

4、请简述什么是机器学习？

机器学习是从数据中自动分析获得模型，并利用模型对未知数据进行预测。

5、机器学习工作流程有哪五步？

1.获取数据
2.数据基本处理
3.特征工程
4.机器学习(模型训练)
5.模型评估
结果达到要求就上线服务，如果没有达到要求，重新上面步骤

6、什么是线性回归？它的特点是什么？

线性回归是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。

特点：只有一个自变量的情况称为单变量回归，多于一个自变量情况的叫做多元回归。

7、常见的梯度下降算法有哪些？

全梯度下降算法，随机梯度下降算法，小批量梯度下降算法，随机平均梯度下降算法。

8 、请简要解释什么是过拟合，并提出至少三种防止过拟合的方法。

答：过拟合是指在训练数据上表现很好，但在新数据上表现较差的现象。

防止过拟合的方法包括：

- 数据集扩充：增加更多的训练样本，从而减少模型对特定数据的过度拟合。

- 正则化：通过在损失函数中引入正则化项，约束模型的复杂度，防止模型过分拟合训练数据。

- 交叉验证：使用交叉验证方法对模型进行评估，通过评估模型在不同数据集上的性能，选择性能较好的模型。

- 特征选择：选择最相关的特征，去除冗余或无关的特征，以减少模型的复杂度。

9、欠拟合和过拟合的原因分别有哪些？如何避免？

分析：

欠拟合的原因：模型复杂度过低，不能很好的拟合所有的数据，训练误差大；

避免欠拟合：增加模型复杂度，如采用高阶模型（预测）或者引入更多特征（分类）等。

过拟合的原因：模型复杂度过高，训练数据过少，训练误差小，测试误差大；

避免过拟合：降低模型复杂度，如加上正则惩罚项，如L1，L2，增加训练数据等。

10、简述一下K-means算法的优点和缺点。

优点
1）原理简单（靠近中心点），实现容易。
2）聚类效果中上（依赖K的选择）。
3）空间复杂度o(N)，时间复杂度o(IKN) 。N为样本点个数，K为中心点个数，I为迭代次数。

缺点
1）对离群点，噪声敏感（中心点易偏移）。
2）很难发现大小差别很大的簇及进行增量计算。
3）结果不一定是全局最优，只能保证局部最优（与K的个数及初值选取有关）。