机器学习 | 分类问题

news/2024/11/23 5:48:04/

目录

一、K近邻算法

二、决策树

1.一些原理介绍

2.决策树案例与实践

三、距离


一、K近邻算法

我们引入accuracy_score,利用score()的方法评估准确性。k近邻算法中的k是一个超参数,需要事先进行定义。

k值得选取经验做法是一般低于训练样本得平方根。当然,k值得选取也不是越大越好,根据某些实验得结果表明,k值得增加反而会导致准确率的下降。这里我们选择k=5进行分析:

#导入库
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score#加载数据
iris=datasets.load_iris()  #创建iris的数据,把属性存在X,类别标签存在y
X=iris.data
y=iris.target#划分训练集和测试集
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.3,random_state=1)#K近邻算法
model=KNeighborsClassifier(n_neighbors=5)  #指定k=5
model.fit(X_train,y_train)#显示结果
y_pred=model.predict(X_test)
train_score=model.score(X_train,y_train)
test_score=model.score(X_test,y_test)
print(y_pred)
print(y_test)
print("训练集的准确率:%f"%train_score)
print("测试集的准确率:%f"%test_score)
print(accuracy_score(y_pred,y_test))  #评估拟合的准确性

二、决策树

1.一些原理介绍

信息所能传递的信息量与该信息的不确定性之间有着显著的关系。因此,如果关注信息量,就需要能对其进行合理的度量。在信息论中,熵正式针对随即信息的这种不确定性(也称不纯度)进行度量。变量的不确定性越大,则说明需要了解的信息就越多,熵的值就会越大。

决策时就是利用这种信息熵的思想来衡量数据划分的优劣,从而让划分后的信息能够获得的信息量最大。什么是信息熵呢?它是一种度量样本集合纯度的常用指标之一。

假如一个数据集当中有k类样本,每类样本的占比为p_{i}\left ( i=1,\cdots ,k \right ),则信息熵为:

H(y)=-\sum_{i=1}^{k}p_{i}\log_{2}p_{i}

其中,对数的底为2,表示信息熵的单位为比特,H(y)的值越小,则数据集的纯度越高。

当p=0或p=1时,H(y)=0,随机变量完全没有不确定性。

当具备衡量数据集纯度的度量指标信息熵之后,下一步需要了解一个重要的概念——信息增益。信息增益与描述变量的特征关系十分密切,通过信息增益的方式,可以找出哪个特征(当存在多个特征时)对样本的信息增益最大,因此,也就可以利用信息增益帮助决策树选择特征。信息增益是待分类的集合的熵和选定某个特征的条件熵之差。

2.决策树案例与实践

我们用一个具体的案例说明信息增益的工作原理,这里选择Weka数据集中的天气数据,如下图所示,数据中给出了四个特征与决策(分类)。

天气数据
编号天气展望温度湿度是否有风是否出游
1晴天炎热
2晴天炎热
3阴天炎热
4雨天温暖
5雨天寒冷正常
6雨天寒冷正常
7阴天寒冷正常
8晴天温暖
9晴天寒冷正常
10雨天温暖正常
11晴天温暖正常
12阴天温暖
13阴天炎热正常
14雨天温暖

根据历史数据可以得知14天内有9天选择外出,5天没有外出,此时的信息熵为:

-(\frac{9}{14}\log_{2}\frac{9}{14}+\frac{5}{14}\log_{2}\frac{5}{14})=0.940

以天气展望特征开始计算信息增益,下面给出了该特征下不同情形的信息熵:

晴天信息熵:-(\frac{2}{5}log_{2}\frac{2}{5}+\frac{3}{5}log_{2}\frac{3}{5})=0.971

阴天信息熵:-(\frac{4}{4}log_{2}\frac{4}{4}+\frac{0}{4}log_{2}\frac{0}{4})=0

雨天信息熵:-(\frac{3}{5}log_{2}\frac{3}{5}+\frac{2}{5}log_{2}\frac{2}{5})=0.971

因为晴天、阴天、雨天的比例分别是\frac{5}{14}\frac{4}{14}\frac{5}{14},所以天气属性下的信息熵为:\frac{5}{14}\times 0.971+\frac{4}{14}\times 0+\frac{5}{14}\times 0.971=0.694。这就是天气展望特征下的条件熵。因此,天气展望属性下的信息增益为:0.940-0.694=0.246。

同理,可以计算处出温度特征下的信息增益为0.029,湿度特征下的信息增益为0.152,是否有风特征下信息增益为0.048。

比较不同特征,可以看到天气展望特征下信息增益最大,因此该特征被首先用来进行划分集合。

决策树算法对每个分支节点所包含的样本集利用其他特征(不再包含天气展望特征)再做进一步的划分,过程与上述原理类似,这里不再赘述。

除了信息熵以外,基尼不纯度也常常用来衡量信息的纯度,一些图书或者资料中也译为基尼系数、基尼杂质等。

基尼不纯度是一种用于构建决策树的测量方法,用于确定数据集的特征应该如何分割节点以形成决策树。更准确地说,数据集的基尼不纯度是一个介于0~0.5之间的数字,它表示如果根据数据集中的类分布给心得随机数据一个随机的类标签,它被错误分类的可能性。其公式如下:

Gini(y)=\sum_{i=1}^{k}p_{i}(1-p_{i})=1-\sum_{i=1}^{k}p_{i}^{2}

其中,k的含义与前文信息熵的含义一样,代表样本类的数量。

决策树相比于其他算法,更容易出现过拟合的情形,因为它过分迎合每一个训练的数据,因此导致泛化能力较低。

过拟合是指模型分析的结果与训练数据过于接近,甚至完全对应,因此可能无法适应更多的数据或可靠地预测未来的观察结果。通常,过拟合是指一个数学模型包含的参数超过了数据所能证明的范围。

剪枝法是一种常用的缓解决策树过拟合问题的方法。在Scikit-learn库中通过限制树高达到这种‘剪枝“的目的。利用max_depth限制树的最大深度,超过设定深度的树枝会被全部剪掉。

因为随着决策树高不断增加,对数据量的需求也在增加,否则容易导致过拟合的出现,因此限制树高本身也能够有效抑制过拟合的发生。

在进行决策树建模时,可以将准则criterion设置为使用熵还是基尼不纯度。

#导入库
import numpy as np
import random
from sklearn.datasets import load_iris
from sklearn import tree
from sklearn.metrics import accuracy_score#加载数据
data=load_iris()#划分训练集与测试集
#随机生成不重复的45个0~149的整数(相当于总体)
random.seed(1)
idx_test=random.sample(range(0,149),45)#训练集
X_train=np.delete(data.data,idx_test,axis=0)
y_train=np.delete(data.target,idx_test)#测试集
X_test=data.data[idx_test]
y_test=data.target[idx_test]#决策树
model=tree.DecisionTreeClassifier(max_depth=4,criterion='entropy')  #可将;'entropy'替换成'gini'
model.fit(X_train,y_train)#输出测试结果
train_score=model.score(X_train,y_train)
test_score=model.score(X_test,y_test)
print("训练集得到准确率:%f"%train_score)
print("测试集的准确率:%f"%test_score)
print("测试集中实际值:",y_test)
print("利用模型预测值:",model.predict(X_test))

决策树的可视化是其显著的优势之一。为了实现可视化,我们要在Jupyter中安装Graphivz库并调用。

#可视化,将结果保存至pdf文件
import graphviz
dot_data=tree.export_graphviz(model,out_file=None,feature_names=data.feature_names,class_names=data.target_names,filled=True,rounded=True,special_characters=True)
graph=graphviz.Source(dot_data)
graph.render("iris_tree")

以根节点为例,数据所代表的含义:

第一行petal length(cm)<=2.35表示鸢尾花数据集中“花瓣长”小于等于2.35(cm)的时候,走左下边的子树,否则走右下边子树。

第二行entropy=1.583,表示当前信息熵的值。

第三行samples=105,samples表示当前的样本数。鸢尾花数据集中有150条数据,因为选择45个测试样本,训练集则为105个样本。

第四行value表示属于该节点的每个类别的样本个数,value是一个数组,数组中的元素之和为样本的值。鸢尾花数据集中有3个类别,分别为;山鸢尾(setosa)、变色鸢尾(versicolor)和维吉尼亚鸢尾(virginica)。因此,在value中的数字分别依次表示这三种不同类型鸢尾花的数量。

第五行class主要显示出容量多的样本维吉尼亚鸢尾。

决策树是一种渴望学习的方法,而K近邻算法是懒惰学习。渴望学习在估计测试数据之前其实就已经开始学习了,因此可以快速进行预测。懒惰学习则是等到测试数据来时才开始学习,因此预测起来相对较慢。

三、距离

已知两个点的坐标分别为:A(x_{1},y_{1})B(x_{2},y_{2}),则:

欧式距离:d=\sqrt{(x_{2}-x_{1})^{2}+(y_{2}-y_{1})^2}

曼哈顿距离:d=|x_{2}-x_{1}|+|y_{2}-y_{1}|

切比雪夫距离:d=max(|x_{2}-x_{1}|,|y_{2}-y_{1}|)

假设平面熵有高维空间A(1,2,3,4,5)和B(10,9,8,7,6)两点,使用scipy库可以方便求解出以上三种距离,代码如下:

import numpy as np
A=([1,2,3,4,5])
B=([10,9,8,7,6])
from scipy.spatial.distance import pdist
X=np.vstack([A,B])
d_E=pdist(X)  #欧氏距离
d_M=pdist(X,'cityblock')  #曼哈顿距离
d_C=pdist(X,'chebyshev')  #切比雪夫距离
print("欧氏距离=",d_E,"曼哈顿距离=",d_M,"切比雪夫距离=",d_C)


http://www.ppmy.cn/news/211509.html

相关文章

【简单实用框架】【读Excel表】【可移植】

☀️博客主页&#xff1a;CSDN博客主页 &#x1f4a8;本文由 我是小狼君 原创&#xff0c;首发于 CSDN&#x1f4a2; &#x1f525;学习专栏推荐&#xff1a;面试汇总 ❗️游戏框架专栏推荐&#xff1a;游戏实用框架专栏 ⛅️点赞 &#x1f44d; 收藏 ⭐留言 &#x1f4dd;&…

Linux 之JavaEE定制篇-搭建JavaEE 环境

Linux 之JavaEE 定制篇-搭建JavaEE 环境 注意 本篇软件链接提供 链接&#xff1a;https://pan.baidu.com/s/1y5qqQvWGQ-iz5M2WUrjD3A?pwdv5l2 提取码&#xff1a;v5l2 如果嫌自己下载麻烦或者难找可以考虑 概述 如果需要在Linux 下进行JavaEE 的开发&#xff0c;我们需要…

PHP基于MVC的Web应用

预计更新 第一章&#xff1a;入门 1.1 环境搭建1.2 变量和数据类型1.3 控制流程 第二章&#xff1a;函数 2.1 函数的定义和调用2.2 函数的参数和返回值2.3 匿名函数和闭包 第三章&#xff1a;数组 3.1 数组的基本操作3.2 多维数组3.3 数组函数和排序 第四章&#xff1a;文…

qss背景设置相关入门文档

目录 概述设置背景颜色background-color设置背景图片background-image设置背景大小background-size设置背景位置background-position设置背景重复background-repeat综合应用总结 概述 当使用Qt的QSS&#xff08;Qt Style Sheets&#xff09;样式表来自定义界面时&#xff0c;背…

直播录音时准备一副监听耳机,实现所听即所得,丁一号G800S上手

有些朋友在录视频还有开在线会议的时候&#xff0c;都会遇到一个奇怪的问题&#xff0c;就是自己用麦克风收音的时候&#xff0c;自己的耳机和别人的耳机听到的效果不一样&#xff0c;像是音色、清晰度不好&#xff0c;或者是缺少伴奏以及背景音嘈杂等&#xff0c;这时候我们就…

微软云 Azure 云服务器 Web应用服务云计算解决方案

一、 Microsoft Azure 微软云简介 Microsoft Azure 是 Microsoft 为客户提供的公有云平台。客户可以多种不同方式使用此平台。例如&#xff0c;客户可以使用 Microsoft Azure 构建一个在 Microsoft 数据中心运行并存储其数据的 Web 应用程序。同时&#xff0c;亦可使用 Micro…

微软Surface发布会看什么

微软不软&#xff01;这次的微软 2016 年 10 月 26 日发布会不禁让人为信仰充值。27日就是苹果的发布会&#xff0c;PC界两大巨头竞争意图很明显啊&#xff0c;微软没有让我失望&#xff0c;留给我印象深刻的地方做个总结。   硬件设备更容易吸引注意&#xff0c;微软深深的…

suface怎么把计算机放到桌面,如何将Surface Pro变成一台一体电脑?

如今&#xff0c;随着技术的升级不仅仅产品的样式、性能在升级&#xff0c;形态也在打破着传统&#xff0c;比如一款产品在外接的形式下就可以变身为另一款产品。就像你曾想过将微软Surface Pro变身成一款一体电脑吗&#xff1f; 近日&#xff0c;一款名为SD7000 Dual 4K的扩展…