一.空题目
二.解答题目
一.空题目
9:已知样本集合为:([3,4],1),([2,5],2),([8,10],3),([7,8],4),([6,9],5),请计算样本数据部分的均值______
10:当样本数较小时,为什么最小化经验风险会带来过拟合问题?该如何解决?
11:已知某模型对测试样本的输出结果分别为:
(x’1,2)->1
(x’2,1)->2
(x’3,1)->1
(x’4,2)->2
(x’5,1)->2
(x’6,1)->1
请计算错误率______
13:请说出期望风险最小化、经验风险最小化、结构风险最小化的区别。
14:模型测试时,留出法是将样本的数据集随机划分为两部分,一部分组成训练样本,一部分组成测试样本,经过多次测试,取测试结果的平均值作为最终的测试结果。对 错
15:模型测试时,K折交叉验证的方法是什么?
20:在进行主成分分析前,需要进行数据的预处理,将数据标准化为均值为0,方差为1的向量,标准化的目的是?
21:主成分分析的主要步骤是什么?
23:请说出确定线性判别分析最佳投影方向的原则。
24:如果样本有两类,在线性判别分析中,类间距离是用什么衡量的?
25:如果样本有两类,在线性判别分析中,类内距离是用什么衡量的?
38:请描述支持向量机中最优数据分界线的选择原则。
39:请写出以下代码的含义:
from sklearn.svm import SVC
svc = SVC(kernel='linear')
clf = svc.fit(trainx,trainy)
testy = clf.predict(testx)
48:K均值聚类中,K值选取的方法有________和_________。
49:请描述K均值聚类方法的步骤。
50:请复习每次直播课程上课讲解的范例代码。
76:在支持向量机中,划分样本集最优的超平面,应是具有 的超平面。
77:在主成分分析中,降维后部分特征向量被舍弃了,舍弃后可以使 ,同时,能够起到 的效果。
78:在聚类中,用于计算两个样本之间的距离,通常采用的距离度量方式是欧氏距离。
79:在线性回归算法中,最优回归函数中的参数使得回归函数的输出f(x)与测试样本真实输出值之间的 最 。
:80:已知训练数据集合(trainx,trainy),测试数据集(testx,testy),SVM算法代码如下
(1)from sklearn.svm import SVC
(2)svc = SVC(kernel='linear')
(3)clf = svc.fit(trainx,trainy)
(4)testny = clf.predict(testx)
SVM模型对测试数据的预测结果存储在变量 中。
81:在主成分分析中,为使样本点经过投影后尽可能分开,则应该使投影后的样本点
82:聚类是将样本集划分为若干互不相交的子集,即样本簇,为使聚类结果比较好,应使聚类后 高且 低。
83:在支持向量机中,最优划分超平面所产生的分类结果是最 的,对未见示例的 最强。
84:给定数据集,模型采用函数预测测试样本的y值,则该模型属于 模型,可采用 算法得到该函数。
85:已知训练数据集合(trainx,trainy),测试数据集(testx,testy),SVM算法代码如下
(1)from sklearn.svm import SVC
(2)svc = SVC(kernel='linear')
(3)clf = svc.fit(trainx,trainy)
(4)testny = clf.predict(testx)
代码(3)完成的功能为 。
86:假设输入数据存储在x_data中,类别标签存储在y_data中,在线性回归分析代码中,代码如下:
(1)from sklearn.linear_model import LinearRegression
(2)lr = LinearRegression()
(3)lr.fit(x_data, y_data)
(4)y_pred = lr.predict(x_data)
请回答代码(3)(4)的含义。
87:给定两类数据集
编辑,其中m=1000,
编辑,每类有500个样本,请设计10折交叉验证法,用于评估模型的测试误差。
, , ,
88:已知某模型对两类问题(0为正例,1为反例)的测试样本输出结果如下表所示:
测试样本 | 测试样本所属类别 | 模型输出类别 |
编辑 | 0 | 1 |
编辑 | 0 | 0 |
编辑 | 1 | 0 |
编辑 | 1 | 1 |
编辑 | 1 | 1 |
编辑 | 0 | 1 |
请计算该模型查准率、查全率及F1,结果保留两位小数。
89:已知数据集的定义为
编辑,表示包含m个样本的数据集,其中每个样本有d个属性,则每个样本
编辑是d维空间中的一个向量,其中
编辑是样本
编辑在第j个属性上的取值,d称为样本
编辑的维数。
90:有500个人脸图像样本’(像素点128*68=8704)构成的人脸图像数据集,所有像素点的值构成图像样本的属性,请根据数据集的定义及右图给出该人脸图像数据集中以下变量的值。
(1)数据集的大小m
(2)样本的维数d
编辑(3)
编辑(下标从0开始)
- m=500
- D=8704
(3)144
90: 假设数据的协方差矩阵存在data中,采用主成分分析算法对数据进行降维,以下代码的含义是什么?
(1)eigValue, eigVec = np.linalg.eig(data)
(2)eigValInd = np.argsort(-eigValue)
(3)selectVec = eigVec[:, eigValInd[:3]]
- 给定两类数据集 编辑,其中m=1000, 编辑,每类有500个样本,请设计留出法,用于评估模型的测试误差。
请计算该模型的错误率。
测试样本 | 测试样本所属类别 | 模型输出类别 |
编辑 | 2 | 1 |
编辑 | 1 | 2 |
编辑 | 1 | 1 |
编辑 | 2 | 2 |
编辑 | 1 | 2 |
编辑 | 1 | 1 |
二.解答题目
9:已知样本集合为:([3,4],1),([2,5],2),([8,10],3),([7,8],4),([6,9],5),请计算样本数据部分的均值______________________。[5.2,7.2]。
其中,每个样本点的第一个数字表示第一个特征的值,第二个数字表示第二个特征的值,而后面的数字(1, 2, 3, 4, 5)是样本的标签或类别,在计算均值时不考虑它们。
首先,我们提取所有样本点的第一个特征的值:3,2,8,7,6,
然后计算这些值的均值:
第一个特征的均值=(53+2+8+7+6)/5=526=5.2,
接着,我们提取所有样本点的第二个特征的值:4,5,10,8,9,
然后计算这些值的均值:
第二个特征的均值=(54+5+10+8+9)/5=536=7.2,
因此,样本数据部分的均值为 [5.2,7.2]。
10:当样本数较小时,为什么最小化经验风险会带来过拟合问题?该如何解决?
答案:___________
样本数较小时,经验风险不等于期望风险,最小化经验风险得到的模型其期望风险不一定最最小,同时,最小化经验风险时,在每个训练样本上的训练误差可能为零,得到的模型过于复杂,造成过拟合问题,然而当数据不在训练集合中时,预测误差较大,造成过拟合问题。
解决过拟合问题可以采用正则化的方法,其基本思想是希望模型尽量简单。
11:已知某模型对测试样本的输出结果分别为:
(x’1,2)->1
(x’2,1)->2
(x’3,1)->1
(x’4,2)->2
(x’5,1)->2
(x’6,1)->1
请计算错误率_______50%__
(x1′,2)→1:真实类别是2,模型预测为1。
(x2′,1)→2:真实类别是1,模型预测为2。
(x3′,1)→1:真实类别是1,模型预测为1。
(x4′,2)→2:真实类别是2,模型预测为2。
(x5′,1)→2:真实类别是1,模型预测为2。
(x6′,1)→1:真实类别是1,模型预测为1。
错误预测的样本数:3(即第1、2、5个测试样本的预测是错误的)。
3/6=0.5
13:请说出期望风险最小化、经验风险最小化、结构风险最小化的区别。
答案解析:期望风险最小化是最小化模型在总体上的预测风险,经验风险最小化是最小化模型在训练样本上的预测风险值,结构风险最小化是最小化经验风险与模型结构复杂度的和。
14:模型测试时,留出法是将样本的数据集随机划分为两部分,一部分组成训练样本,一部分组成测试样本,经过多次测试,取测试结果的平均值作为最终的测试结果。
对 错
15:模型测试时,K折交叉验证的方法是什么?
答案:将数据集分为K个互不相交的大小相同数据集,用k-1个子集训练,用剩下的1个子集测试,重复K次,选出平均测试误差最小的模型
20:在进行主成分分析前,需要进行数据的预处理,将数据标准化为均值为0,方差为1的向量,标准化的目的是?
答案:标准化的目的是使数据不同的特征能够在同一标准下进行度量。
21:主成分分析的主要步骤是什么?
答案:设有m条n维数据,PCA的一般步骤如下:
1)进行数据预处理(标准化为均值为0,方差为1)
2)将原始数据按列组成n行m列矩阵X
3)计算矩阵X中每个特征属性(n维)的平均向量M(平均值)
4)将X的每行(代表一个属性字段)进行零均值化,即减去M
5)按照公式C=1/m XX^T求出协方差矩阵
6)求出协方差矩阵的特征值及对应的特征向量
7)将特征向量按对应特征值从大到小按行排列成矩阵,取前k(k < n)行组成基向量P
8)通过Y=PX计算降维到k维后的样本特征
23:请说出确定线性判别分析最佳投影方向的原则。
答案:最佳投影方向是最易于分类的方向,即投影后,类内距离最小,类间距离最大
24:如果样本有两类,在线性判别分析中,类间距离是用什么衡量的?
答案:类间距离是两类样本均值的距离
25:如果样本有两类,在线性判别分析中,类内距离是用什么衡量的?
答案:每一类样本到其均值距离的和再求和。
答案:最优分界线,要尽可能地远离两类数据点,即数据集的边缘点到分界线的距离d最大。
from sklearn.svm import SVC
svc = SVC(kernel='linear')
clf = svc.fit(trainx,trainy)
testy = clf.predict(testx)
答案解析:
- K均值聚类中,K值选取的方法有________和_________。
答案:肘方法和轮廓系数法
答案:
1)首先选取k个类簇(k需要用户进行指定)的质心,通常是随机选取。
2)对剩余的每个样本点,计算它们到各个质心的欧式距离,并将其归入到相互间距离最小的质心所在的簇。计算各个新簇的质心。
3)在所有样本点都划分完毕后,根据划分情况重新计算各个簇的质心所在位置,然后迭代计算各个样本点到各簇质心的距离,对所有样本点重新进行划分。
4)重复第2)步和第3)步, 直到迭代计算后,所有样本点的划分情况保持不变,此时说明k-均值算法已经得到了最优解,将运行结果返回。
- 在支持向量机中,划分样本集最优的超平面,应是具有 的超平面。 最大间隔
- 在主成分分析中,降维后部分特征向量被舍弃了,舍弃后可以使 ,同时,能够起到 的效果。使样本的采样密度增大, 去噪
- 在聚类中,用于计算两个样本之间的距离,通常采用的距离度量方式是欧氏距离。
- 在线性回归算法中,最优回归函数中的参数使得回归函数的输出f(x)与测试样本真实输出值之间的 最 。均方误差 小
- 已知训练数据集合(trainx,trainy),测试数据集(testx,testy),SVM算法代码如下
(1)from sklearn.svm import SVC
(2)svc = SVC(kernel='linear')
(3)clf = svc.fit(trainx,trainy)
(4)testny = clf.predict(testx)
SVM模型对测试数据的预测结果存储在变量 中。
- 在主成分分析中,为使样本点经过投影后尽可能分开,则应该使投影后的样本点
。 投影后样本点的方差最大化
- 聚类是将样本集划分为若干互不相交的子集,即样本簇,为使聚类结果比较好,应使聚类后 高且 低。簇内相似度 , 簇间相似度
- 在支持向量机中,最优划分超平面所产生的分类结果是最 的,对未见示例的 最强。 鲁棒 ,泛化能力
- 给定数据集,模型采用函数预测测试样本的y值,则该模型属于 模型,可采用 算法得到该函数。 线性 , 线性回归
- 已知训练数据集合(trainx,trainy),测试数据集(testx,testy),SVM算法代码如下
(1)from sklearn.svm import SVC
(2)svc = SVC(kernel='linear')
(3)clf = svc.fit(trainx,trainy)
(4)testny = clf.predict(testx)
代码(3)完成的功能为 。采用训练数据对SVM模型进行训练
- 假设输入数据存储在x_data中,类别标签存储在y_data中,在线性回归分析代码中,代码如下:
(1)from sklearn.linear_model import LinearRegression
(2)lr = LinearRegression()
(3)lr.fit(x_data, y_data)
(4)y_pred = lr.predict(x_data)
请回答代码(3)(4)的含义。
答案
- 采用训练数据x_data和 y_data训练线性回归模型lr.
- 对x_data数据采用训练好的模型进行预测,预测结果存储在y_pred中。
- 给定两类数据集 编辑,其中m=1000, 编辑,每类有500个样本,请设计10折交叉验证法,用于评估模型的测试误差。
, , ,
1)将数据集划分10个互斥的子集,每个子集包含随机抽取的标签为1的样本50个,标签为-1的样本50个。
2)随机选取一个子集作为测试集,剩余集合作为训练集。
3)选定模型,采用训练集进行训练,测试集进行测试,记录测试误差。
4)重复2-3步10次,每次选取的测试子集不同,取平均测试误差为最终测试误差。
89:已知某模型对两类问题(0为正例,1为反例)的测试样本输出结果如下表所示:
测试样本 | 测试样本所属类别 | 模型输出类别 |
编辑 | 0 | 1 |
编辑 | 0 | 0 |
编辑 | 1 | 0 |
编辑 | 1 | 1 |
编辑 | 1 | 1 |
编辑 | 0 | 1 |
请计算该模型查准率、查全率及F1,结果保留两位小数。
(查准率
,查全率
,其中,TP为真正例数,即实际为正例,识别结果也为正例的样本个数;FP为假正例数,即实际为反例,识别结果为正例的样本个数;FN为假反例数,即实际为正例,识别结果为反例的样本个数;TN为真反例数,即实际为反例,识别结果也为反例的样本个数)
查准率P=1/2=50%
查全率R=1/3=33.33%
F1=2/5=40%
- 已知数据集的定义为 编辑,表示包含m个样本的数据集,其中每个样本有d个属性,则每个样本 编辑是d维空间中的一个向量,其中 编辑是样本 编辑在第j个属性上的取值,d称为样本 编辑的维数。
- 有500个人脸图像样本’(像素点128*68=8704)构成的人脸图像数据集,所有像素点的值构成图像样本的属性,请根据数据集的定义及右图给出该人脸图像数据集中以下变量的值。
(1)数据集的大小m
(2)样本的维数d
编辑(3)
编辑(下标从0开始)
- m=500
- D=8704
(3)144
90: 假设数据的协方差矩阵存在data中,采用主成分分析算法对数据进行降维,以下代码的含义是什么?
(1)eigValue, eigVec = np.linalg.eig(data)
(2)eigValInd = np.argsort(-eigValue)
(3)selectVec = eigVec[:, eigValInd[:3]]
(1)计算协方差矩阵的特征值和特征向量
(2)对特征值进行排序
(3)依据特征值的排序结果,取三个最大的特征值对应的特征向量存入selectVec中。
- 给定两类数据集 编辑,其中m=1000, 编辑,每类有500个样本,请设计留出法,用于评估模型的测试误差。
1)划分训练集与测试集
2)训练集为800个样本,其中随机抽取标签为-1的样本400个,标签为+1的样本400个,测试集为剩余样本。
3)选定模型,采用训练集进行训练,测试集进行测试,记录测试误差。
4)重复1-3步10次,取平均测试误差为最终测试误差。
请计算该模型的错误率。
测试样本 | 测试样本所属类别 | 模型输出类别 |
编辑 | 2 | 1 |
编辑 | 1 | 2 |
编辑 | 1 | 1 |
编辑 | 2 | 2 |
编辑 | 1 | 2 |
编辑 | 1 | 1 |
答案:错误率=3/6= 50%