机器学习模型选择评估和超参数调优

news/2025/1/12 21:59:39/

       如何选择模型?如何评估模型?如何调整模型的超参数?模型评估要在测试集上进行,不能在训练集上进行,否则评估的准确率总是100%。所以,一般我们准备好数据集后,要将其分为训练集和测试集,分配比例一般在5:5到8:2之间,即最多训练集80%,测试集20%。sklearn中有sklearn.model_selection.train_test_split方法来实现数据集的拆分。

一、如何选择一个合适的模型呢?

模型的选择需要考虑很多因素,比如模型的灵活度或复杂度(即模型支持的超参数),并不是越大越好,主要考虑的核心点在于模型的偏差和方差之间得到一个平衡点,偏差相当于模型预测的准确度,方差相当于模型在整个测试数据预测的稳定性或鲁棒性,一般来说,欠拟合就是训练集过少,导致预测准确度大(即偏差大,波动或方差小),过拟合就是训练集数据过多,过度学习了训练集的所有波动数据,导致预测准确度小(即偏差小,波动或方差大),两种情况都不好,两者的平衡点是最好的。

二、最常用的四种模型评估方法

1.一般的评估验证:将数据集拆分为训练集和测试集,在训练集上完成训练,形成模型,在测试集上进行预测, 进而评估模型的准确率,这样会带来两个问题,1个问题由于拆分比例的没有一个标准方法,导致模型有可能欠拟合或过拟合,1个问题是由于测试集数据的随机选择,有可能正好选择了一组适合该模型的预测数据,导致准确率偏高,或者出现相反情况。示例如下:

#加载花萼数据
from sklearn.datasets import load_iris
iris = load_iris()
import numpy as np
X = iris.data.astype(np.float32)
y = iris.target
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=37,train_size=0.8) #8:2拆分,随机
knn = cv2.ml.KNearest_create()
knn.setDefaultK(1) #设置K近邻的数量为1
knn.train(X_train, cv2.ml.ROW_SAMPLE, y_train)
_, y_test_hat = knn.predict(X_test)
accuracy_score(y_test, y_test_hat) #96.7%

2.K折交叉验证:相当于将N个数据集分为K折,每组相当于N/K个数据,后续将K-1个数据集用于训练了,另一个用于测试,优点是更高效的使用数据,通过多次迭代循环,得到更高的准确率。示例如下:

#加载花萼数据
from sklearn.datasets import load_iris
import numpy as np
iris = load_iris()
X = iris.data.astype(np.float32)
y = iris.target
from sklearn.model_selection import train_test_split
#将数据分为两等分,各50%,相当于二折
X_fold1, X_fold2, y_fold1, y_fold2 = train_test_split(X, y, random_state=37, train_size=0.5)
#opencv方式
import cv2
knn = cv2.ml.KNearest_create()
knn.setDefaultK(1) #K=1
knn.train(X_fold1, cv2.ml.ROW_SAMPLE, y_fold1) #第一折训练
_, y_hat_fold2 = knn.predict(X_fold2)          #第一折预测
knn.train(X_fold2, cv2.ml.ROW_SAMPLE, y_fold2) #第二折训练
_, y_hat_fold1 = knn.predict(X_fold1)          #第二折预测
from sklearn.metrics import accuracy_score
accuracy_score(y_fold1, y_hat_fold1) #第一折评估
accuracy_score(y_fold2, y_hat_fold2) #第二折评估
#sklearn方式
from sklearn.neighbors import KNeighborsClassifier
model = KNeighborsClassifier(n_neighbors=1)
from sklearn.model_selection import cross_val_score
scores = cross_val_score(model, X, y, cv=5) #cv指定折数,这里是5折,无需手动分割数据集,cross_val_score会根据折数自动分割。
scores.mean(), scores.std() #评估的平均值和标准差
#留一法交叉验证,这是交叉验证的一种特殊方法,相当于将K=N,在K或N次迭代中,留一个数据点进行测试验证评估,具体实现如下
from sklearn.model_selection import LeaveOneOut
scores = cross_val_score(model, X, y, cv=LeaveOneOut())
scores.mean(), scores.std()

3.自举验证:用于评估模型的鲁棒性,示例如下:

#加载花萼数据
from sklearn.datasets import load_iris
iris = load_iris()
import numpy as np
X = iris.data.astype(np.float32)
y = iris.target
idx_boot = np.random.choice(len(X), size=len(X), replace=True) #随机以替换的方式选择N个样本
X_boot = X[idx_boot, :]
y_boot = y[idx_boot]
idx_oob = np.array([x not in idx_boot for x in np.arange(len(X))], dtype=np.bool)
X_oob = X[idx_oob, :]
y_oob = y[idx_oob]
knn = cv2.ml.KNearest_create()
knn.setDefaultK(1)
knn.train(X_boot, cv2.ml.ROW_SAMPLE, y_boot)
_, y_hat = knn.predict(X_oob)
accuracy_score(y_oob, y_hat)
acc=list(yield_bootstrap(knn, X, y, n_iter=10))
print(acc)
acc = list(yield_bootstrap(knn, X, y, n_iter=1000))#迭代1000次
np.mean(acc), np.std(acc)#迭代调用n_iter次的函数,实现模型训练预测和准确率评估
def yield_bootstrap(model, X, y, n_iter=10000):for _ in range(n_iter):# train the classifier on bootstrapidx_boot = np.random.choice(len(X), size=len(X),replace=True)X_boot = X[idx_boot, :]y_boot = y[idx_boot]model.train(X_boot, cv2.ml.ROW_SAMPLE, y_boot)        # test classifier on out-of-bag examplesidx_oob = np.array([x not in idx_boot for x in np.arange(len(X))],dtype=np.bool)X_oob = X[idx_oob, :]y_oob = y[idx_oob]_, y_hat = model.predict(X_oob)        # return accuracyyield accuracy_score(y_oob, y_hat)

4.T检验

T检验测试确定两个数据样本是否来自于相同的平均值或期望值的潜在分布。示例如下:

#加载花萼数据
from sklearn.datasets import load_iris
iris = load_iris()
import numpy as np
X = iris.data.astype(np.float32)
y = iris.target
k1 = KNeighborsClassifier(n_neighbors=1)
scores_k1 = cross_val_score(k1, X, y, cv=10)
np.mean(scores_k1), np.std(scores_k1)
k3 = KNeighborsClassifier(n_neighbors=3)
scores_k3 = cross_val_score(k3, X, y, cv=10)
np.mean(scores_k3), np.std(scores_k3)
from scipy.stats import ttest_ind
ttest_ind(scores_k1, scores_k3)

三、模型的超参数选择及调优

模型的参数调优一般采用网格搜索,网格搜索其实就是多个for循环嵌套调整,一般一个参数采用一个for循环,示例如下:

#加载花萼数据
from sklearn.datasets import load_iris
import numpy as np
iris = load_iris()
X = iris.data.astype(np.float32)
y = iris.target
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=37)
best_acc = 0
best_k = 0
import cv2
from sklearn.metrics import accuracy_score
for k in range(1, 20):knn = cv2.ml.KNearest_create()knn.setDefaultK(k)knn.train(X_train, cv2.ml.ROW_SAMPLE, y_train)_, y_test_hat = knn.predict(X_test)acc = accuracy_score(y_test, y_test_hat)if acc > best_acc:best_acc = accbest_k = k
print(best_acc, best_k)
#训练集、验证集和测试集的拆分:在网格搜索过程中,如果将数据集还分为训练集和测试集,利用测试集来评估模型并更新超参数,就会出现将测试集信息暴漏给模型,导致评估不准确,因此需要将数据集拆分为训练集、验证集和测试集,训练集用于训练数据,验证集用于选择模型的最佳参数,测试集用于评估模型。
X_trainval, X_test, y_trainval, y_test = train_test_split(X, y, random_state=37)    #数据集分为训练验证集和测试集
X_train, X_valid, y_train, y_valid = train_test_split(X_trainval, y_trainval, random_state=37)#训练验证集进一步分为训练集和验证集
best_acc = 0.0
best_k = 0
for k in range(1, 20):knn = cv2.ml.KNearest_create()knn.setDefaultK(k)knn.train(X_train, cv2.ml.ROW_SAMPLE, y_train)    #在训练集训练模型_, y_valid_hat = knn.predict(X_valid)             #在验证集上预测数据acc = accuracy_score(y_valid, y_valid_hat)        #根据验证集预测数据情况评估准确率,不断更新最佳超参数if acc >= best_acc:best_acc = accbest_k = k
print(best_acc, best_k) #1.0,7knn = cv2.ml.KNearest_create()
knn.setDefaultK(best_k) #best_k=7,是前面迭代得到的最近k值
knn.train(X_trainval, cv2.ml.ROW_SAMPLE, y_trainval) #在训练验证集上重新训练模型
_, y_test_hat = knn.predict(X_test)
print(accuracy_score(y_test, y_test_hat))
print(best_k)
#网格搜索结合交叉验证实现超参数调优,利用sklearn提供的GridSearchCV类,实现在网格搜索中加入交叉验证机制
param_grid = {'n_neighbors': range(1, 20)} #搜索n_neighbors的最佳参数,范围1~19,多个其他参数也用类似方式设置
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCV
grid_search = GridSearchCV(KNeighborsClassifier(), param_grid, cv=5)
grid_search.fit(X_trainval, y_trainval) #在训练集训练模型
print(grid_search.best_score_, grid_search.best_params_) #获得最佳的验证得分和最佳超参数k值
print(grid_search.score(X_test, y_test)) #测试集上的评估

四、利用管道Pipeline实现机器学习各步骤的连接

机器学习算法需要很多步骤,比如数据预处理、训练、预测、评估等步骤,而sklearn的Pipeline类本身就有fit、predict和score方法,因此他可以将分类器不同模型和处理步骤连接起来,相当于一个管道。示例如下:

#加载花萼数据
from sklearn.datasets import load_breast_cancer
import numpy as np
cancer = load_breast_cancer()
X = cancer.data.astype(np.float32)
y = cancer.target
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=37)
#采用SVM
from sklearn.svm import SVC
svm = SVC()
#svm.fit(X_train, y_train)
#svm.score(X_test, y_test)
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import MinMaxScaler
pipe = Pipeline([("scaler", MinMaxScaler()), ("svm", SVC())])
pipe.fit(X_train, y_train)
pipe.score(X_test, y_test)#结合sklearn的网格搜索
param_grid = {'svm__C': [0.001, 0.01, 0.1, 1, 10, 100],'svm__gamma': [0.001, 0.01, 0.1, 1, 10, 100]}
from sklearn.model_selection import GridSearchCV
grid = GridSearchCV(pipe, param_grid=param_grid, cv=10)
grid.fit(X_train, y_train)
print(grid.best_score_)
print(grid.best_params_)
print(grid.score(X_test, y_test))

五、模型的评估指标主要有那些

1.分类模型

1)准确率:就是前面各种示例关注的评估指标,测试集中预测正确的数据占比。

2)精确率:表示模型未将正样本预测为负的能力。

3)召回率:表示模型预测所有正样本的能力,还有一个F值=2*(精确率*召回率)/(精确率+召回率),相当于两者的调和均值。

2.回归模型

1)均方误差:预测值与真实值之间的平方误差,也是回归算法中经常用到的指标。

2)可解释方差:预测的方差或离散度。

3)R2值:无偏方差估计,详见sklearn.metrics.r2_score类,也是回归算法中经常用到的指标。


http://www.ppmy.cn/news/1007561.html

相关文章

过去几十年来,主要湖泊遭受了严重的水流失

一项新的研究表明,干旱和潮湿地区的损失是全球性的,可能对地球四分之一的人口产生重大影响。 美国宇航局的地表水和海洋地形任务(如图所示)在轨道上运行,将扫描湖泊和水库,为全球湖泊水储存估计提供新数据…

kvm+qemu+libvirt管理虚机

virt-manager 图形化创建虚拟机 #virt-manager纳管远程kvm虚拟机 # 可以指定kvm虚机的ssh端口和virt-manager所在主机的私钥 virt-manager -c qemussh://root10.197.115.17:5555/system?keyfileid_rsa --no-fork # 如果你生成的ssh-key 的名称是 test-key,在/home/ssh-key/ 目…

nginx设置转发未生效问题

nginx设置转发失效问题 在配置了 nginx 转发后,发现没有生效,经过反复的比较后记录一下问题: 正常转发: location ~ ^/prefix/path {proxy_pass http://101.1.12.11:8181; }未正常转发: location ~ ^/prefix/path {…

企业集团员工内部食堂餐厅食材预定订餐统计系统开发

内部食堂是针对员工食堂设计的预定系统 可以提前进行点餐,统计餐食人数 定量制作,避免浪费食材。 首页预定菜单提前显示一周菜单 用户可以提前预定想要购买的餐品 在用餐时取餐核销 食堂平台方用餐时对用户的菜品进行核销 通过后台预订信息 根据报餐统计做出对应数量…

软件测试面试题——接口自动化测试怎么做?

面试过程中,也问了该问题,以下是自己的回答: 接口自动化测试,之前做过,第一个版本是用jmeter 做的,1 主要是将P0级别的功能接口梳理出来,根据业务流抓包获取相关接口,并在jmeter中跑…

MySQL多表查询 (超详细)

一、多表关系 项目开发中,在进行数据库表结构设计时,会根据业务需求及业务模块之间的关系,分析并设计表结构,由于业务之间相互关联,所以各个表结构之间也存在着各种联系,基本上分为三种: 一对多&#xff0…

使用HTTP隧道时如何应对目标网站的反爬虫监测?

在进行网络抓取时,我们常常会遇到目标网站对反爬虫的监测和封禁。为了规避这些风险,使用代理IP成为一种常见的方法。然而,如何应对目标网站的反爬虫监测,既能保证数据的稳定性,又能确保抓取过程的安全性呢?…

for(auto iter:vec) 及 for(auto iter:vec) 的典型用法

【算法知识点】C11 标准引入了 auto 类型说明符。它通过变量的初始值或者表达式中参与运算的数据类型来推断变量的类型。 一、for(auto iter:vec) 的典型用法 #include <bits/stdc.h> using namespace std;int main(){string s;cin>>s;for(auto t:s){cout<<…