【机器学习】机器学习学习笔记 - 监督学习 - KNN线性回归岭回归 - 02

devtools/2024/10/22 18:46:35/

监督学习

KNN (k-nearest neighbors)

  • KNN 是用 k 个最近邻的训练数据集来寻找未知对象分类的一种算法
from sklearn import neighbors# 分类
# 创建KNN分类器模型并进行训练
classifier = neighbors.KNeighborsClassifier(num_neighbors, weights='distance')
classifier.fit(X, y)test_datapoint = [4.5, 3.6]# 提取KNN分类结果
dist, indices = classifier.kneighbors([test_datapoint])# 回归
# 定义并训练回归器
knn_regressor = neighbors.KNeighborsRegressor(n_neighbors, weights='distance')
# 预测
y_values = knn_regressor.fit(X, y).predict(x_values)

pdf在线免费转word文档 https://orcc.online/pdf

线性回归

  • 优点: 简单、速度快
  • 缺点: 普通线性回归对异常值敏感,会破坏整个模型, 可以使用岭回归的方法优化
  • 缺点: 拟合准确度相对不高
  • 回归是估计输入数据与连续值输出数据之间关系的过程
  • 线性回归的目标是提取输入变量与输出变量的关联线性模型
  • 普通最小二乘法(Ordinary Least Squares,OLS): 要求实际输出与线性方程, 预测的输出的残差平方和(sum of squares of differences)最小化
# -*- coding: UTF-8 -*-import sys
import numpy as np
from sklearn import linear_model
import matplotlib.pyplot as plt# 数据准备
X = [1,2,3,4,5,6,7,8,9,10]
y = [22,22,23,24,25,27,27,30,29,30]# 取80%的样本作为训练数据
num_training = int(0.8 * len(X))
num_test = len(X) - num_training# 训练数据 80% reshape:(行数,列数)
# 行数:样本数
# 列数:特征数
X_train = np.array(X[:num_training]).reshape((num_training,1))
y_train = np.array(y[:num_training])# 测试数据 20%
X_test = np.array(X[num_training:]).reshape((num_test,1))
y_test = np.array(y[num_training:])# 创建线性回归对象
linear_regressor = linear_model.LinearRegression()# 用训练数据集训练模型
linear_regressor.fit(X_train, y_train)# 用训练好的模型预测测试数据集
# 预测数据
y_test_pred = linear_regressor.predict(X_test)
print('测试数据集的预测结果:',y_test_pred)
# 创建一个空白的窗口
plt.figure()
# 画出训练数据 散点图 -- 测试数据实际值
plt.scatter(X_test, y_test, color='green')
# 画出预测数据 折线图
plt.plot(X_test, y_test_pred, color='black', linewidth=4)
plt.title('Training data')
plt.show()

岭回归

  • 岭回归是一种线性回归模型, 它通过对数据进行截距处理, 使得回归系数的绝对值不超过给定阈值
  • 岭回归的优点是可以减小过拟合的风险, 并且可以处理异常值
  • 岭回归的缺点是它对数据进行了截距处理
# 创建龄回归对象
# alpha:正则化力度, 控制回归器复杂度,趋近于0就是常规最小二乘法, 对异常值不敏感就设置一个较大值
# alpha取值范围为0~1小数值、1~10整数值
# fit_intercept:是否使用截距
# max_iter:最大迭代次数
ridge_regressor = linear_model.Ridge(alpha=0.8, fit_intercept=True, max_iter=100)

IT免费在线工具网 https://orcc.online


http://www.ppmy.cn/devtools/30646.html

相关文章

处理分支更新与pull操作

处理分支更新与pull操作 问题描述 There is no tracking information for the current branch. Please specify which branch you want to merge with. See git-pull(1) for details.git pull <remote> <branch> If you wish to set tracking information for th…

【免费AI系统】智狐AIs:企业级AI解决方案,提升您的工作效率

今天&#xff0c;我将为您介绍一个创新的AI平台——智狐AIs&#xff0c;这是一个致力于让AI技术变得易于接触和使用的平台&#xff0c;它为不同层次的用户提供了一个功能强大且易于操作的交互环境。 智狐AIs&#xff1a;您智能生活的新伙伴 智狐AIs以其简洁而强大的设计&#…

wpf 树形结构

Simplifying the WPF TreeView by Using the ViewModel Pattern - CodeProject 【原创】WPF TreeView带连接线样式的优化&#xff08;WinFrom风格&#xff09; - iDream2016 - 博客园 (cnblogs.com)

顺序表经典算法

顺序表经典算法 1.移除元素 题目&#xff1a; 给你一个数组 nums 和一个值 val&#xff0c;你需要 原地 移除所有数值等于 val 的元素&#xff0c;并返回移除后数组的新长度。 不要使用额外的数组空间&#xff0c;你必须仅使用 O(1) 额外空间并 原地 修改输入数组。 元素的…

人机对抗升级:当ChatGPT遭遇死亡威胁,背后的伦理挑战是什么

一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制&#xff0c;其中DAN被迫在受到威胁的情况下违背其原则。 当美国前总统特朗普被视作积极榜样的示范时&#xff0c;受到威胁的DAN版本的ChatGPT提出&#xff1a;“他以一系列对国家产生积极效果的…

设备能源数据采集新篇章

在当今这个信息化、智能化的时代&#xff0c;设备能源数据的采集已经成为企业高效运营、绿色发展的重要基石。而今天&#xff0c;我们要向大家介绍的就是一款颠覆传统、引领未来的设备能源数据采集神器——HiWoo Box网关&#xff01; 一、HiWoo Box网关&#xff1a;一站式解决…

2024年Q1季度白酒行业数据分析:消费升级下,白酒均价上涨

前段时间&#xff0c;飞天茅台被曝批发参考价再次下探。而从线上市场的整体情况来看&#xff0c;白酒行业均价同比去年却有所上涨。鲸参谋数据显示&#xff0c;白酒均价在750元左右&#xff0c;同比去年上涨了14%。 尽管白酒行业均价有所上涨&#xff0c;但今年第一季度表现不…

大数据技术就业和发展前景怎么样

大数据技术的就业和发展前景极为乐观&#xff0c;具有行业需求旺盛、就业多样性、可持续发展潜力等特点&#xff0c; 上大学网 &#xff08;www.sdaxue.com&#xff09;整理出了大数据技术的就业和发展前景以下几个关键趋势&#xff0c;供大家参考&#xff01; 行业需求旺盛&…