【Python机器学习】多项式回归、K近邻KNN回归的讲解及实战(图文解释 附源码)

news/2024/10/28 16:18:10/

需要源码请点赞关注收藏后评论区留言私信~~~

多项式回归

非线性回归是用一条曲线或者曲面去逼近原始样本在空间中的分布,它“贴近”原始分布的能力一般较线性回归更强。

多项式是由称为不定元的变量和称为系数的常数通过有限次加减法、乘法以及自然数幂次的乘方运算得到的代数表达式。

多项式回归(Polynomial Regression)是研究一个因变量与一个或多个自变量间多项式关系的回归分析方法。多项式回归模型是非线性回归模型中的一种。

由泰勒级数可知,在某点附近,如果函数n次可导,那么它可以用一个n次的多项式来近似。

假设确定了用一个一元n次多项式来拟合训练样本集,模型可表示如下:

那么多项式回归的任务就是估计出各θ值。

包括多项式回归问题在内的一些非线性回归问题可以转化为线性回归问题来求解,具体思路是将式中的每一项看作一个独立的特征(或者说生成新的特征),令y_1=x,y_2=x^2,…,y_n=x^n,那么一个一元n次多项式θ_0+θ_1x+θ_2x^2+…+θ_nx^n就变成了一个n元一次多项式θ_0+θ_1y_1+θ_2y_2+…+θ_ny_n,就可以采用线性回归的方法来求解。

示例:先拟定一个一元三次多项式作为目标函数,然后再加上一些噪声产生样本集,再用转化的线性回归模型来完成拟合,最后对测试集进行预测。

测试效果如下

 

 

 部分代码如下

def myfun(x):input:x(float):自变量output:函数值'''return 10 + 5 * x + 4 * x**2 + 6 * x**3import numpy as np
x = np.linspace(-3,3, 7)
>>> array([-3., -2., -1.,  0.,  1.,  2.,  3.])
x_p = (np.linspace(-2.5, 2.5, 6)).reshape(-1,1) # 预测点
import random
y = myfun(x) + np.random.random(size=len(x)) * 100 - 50
y
>>> array([-136.49570384,   -8.98763646,  -23.33764477,   50.97656894,20.19888523,   35.76052266,  199.48378741])
from sklearn.preprocessing import PolynomialFeatures
featurizer_3 = PolynomialFeatures(degree=3)
x_3 = featurizer_3.fit_transform(x)
x_3
>>>array([[  1.,  -3.,   9., -27.],[  1.,  -2.,   4.,  -8.],[  1.,  -1.,   1.,  -1.],[  1.,   0.,   0.,   0.],[  1.,   1.,   1.,   1.],[  1.,   2.,   4.,   8.],[  1.,   3.,   9.,  27.]])

局部回归

前述的回归模型,假设所有样本之间都存在相同程度的影响,这类模型称为全局模型。在机器学习中,还有另一种思想:认为相近的样本相互影响更大,离的远的样本相互影响很小,甚至可以不计。这种以“远亲不如近邻”思想为指导得到的模型称为局部模型。局部思想在聚类、回归、分类等机器学习任务中都有应用,聚类算法中的DBSCAN算法就是以这种思想为指导的模型。

用于回归的局部模型有局部加权线性回归模型、K近邻模型和树回归模型等。

局部加权线性回归(Locally Weighted Linear Regression,LWLR)模型根据训练样本点与预测点的远近设立权重,离预测点越近的点的权重就越大。局部加权线性回归方法不形成固定的模型,对每一个新的预测点,都需要计算每个样本点的权值,在样本集非常大的时候,预测效率较低。

K近邻法(K-nearest neighbor, KNN)

是一种简单而基本的机器学习方法,可用于求解分类和回归问题。

应用K近邻法求解回归问题,需要先指定三个要素:样本间距离度量方法d(∙)、邻居样本个数k和根据k个邻居样本计算标签值方法v(∙)。

设样本集为S={s_1,s_2,…,s_m}包含m个样本,每个样本s_i=(x_i,y_i)包括一个实例x_i和一个实数标签值y_i。测试样本记为x。

K近邻法用于回归分为两步:

1)根据d(∙),从S中找出k个距离x最近的样本,即得到x的邻域N_k(x);

2)计算v(N_k(x))得到x的标签值

d(∙)常用欧氏距离。v(∙)常用求均值函数、线性回归模型和局部加权线性回归模型。

应用K近邻法求解分类问题,只需将三要素中的计算标签值的方法改为计算分类标签的方法即可。计算分类标签的方法常采用投票法。

创作不易 觉得有帮助请点赞关注收藏~~~


http://www.ppmy.cn/news/4840.html

相关文章

哈希表题目:环形链表

文章目录题目标题和出处难度题目描述要求示例数据范围进阶解法一思路和算法代码复杂度分析解法二思路和算法代码复杂度分析题目 标题和出处 标题:环形链表 出处:141. 环形链表 难度 2 级 题目描述 要求 给你一个链表的头结点 head\texttt{head}h…

2022沙丘大会 · 信创专场 GBASE告诉您金融行业数据库如何选型

12月10日,2022沙丘大会信创专场如期召开,本期专场由沙丘社区与中国信通院数据库应用创新实验室联合主办,GBASE南大通用技术总监冯文忠受邀出席并分享《国产数据库金融行业应用情况》主题演讲。 数据库作为金融信息系统的关键环节&#xff0…

关于小程序订单中心页设置的公告

为进一步规范小程序交易生态、提升用户购物体验、满足用户在有交易的小程序中便捷查看订单信息的诉求,自2022年12月31日起,对于有“选择商品/服务-下单-支付”功能的小程序,需按照平台制定的规范,在小程序内设置订单中心页。 开发…

C++中你不知道的namespace和using的用法

目录 引言 一: 冒号作用域 二、名字控制 1 命令空间 2 命令空间的使用 三、 using的指令 1 using的声明 2 using的编译指令 引言 你是不是只认为namespace 和 using 在C中是基本的语法框架,但是却不知道它们的真正用法,看完文章你会对using和name…

【Linux】shell 及权限理解

​🌠 作者:阿亮joy. 🎆专栏:《学会Linux》 🎇 座右铭:每个优秀的人都有一段沉默的时光,那段时光是付出了很多努力却得不到结果的日子,我们把它叫做扎根 目录👉shell命令…

【Mysql】Sharding-JDBC实现读写分离、分库分表的原理分析

【Mysql】SpringBoot整合Sharding-JDBC实现读写分离、分库分表(一)介绍Sharding-JDBC(1)什么是Sharding-JDBC(2)Sharding-JDBC的源码是如何实现对JDBC增强的(3)Sharding-JDBC的分片原…

【C++进阶】C++11新特性下篇(万字详解)

🎇C学习历程:入门 博客主页:一起去看日落吗持续分享博主的C学习历程博主的能力有限,出现错误希望大家不吝赐教分享给大家一句我很喜欢的话: 也许你现在做的事情,暂时看不到成果,但不要忘记&…

计算机毕设Python+Vue校园志愿者服务系统(程序+LW+部署)

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…