人工智能之机器学习5-回归算法1【培训机构学习笔记】

news/2024/11/20 20:28:24/

培训内容:

模型评估

培训班上课的PPT里很多错误,即使讲了很多年也从没改正过来。

而且很多字母没有给出具体的解释,比如RSS和TSS,对初学者非常不友善。

个人学习:

分类和回归的区别

回归和分类机器学习和统计学中两种常见的监督学习任务,二者主要在以下几个方面存在区别:

目标

  • 回归:主要用于预测一个连续的数值型目标变量,例如预测房价、股票价格、气温等。其目标找到输入特征与连续输出之间的映射关系,使得预测值尽可能接近真实的数值
  • 分类:则是将输入数据划分到不同的类别中输出是离散的类别标签,比如判断一封邮件是垃圾邮件还是正常邮件,一张图片是猫还是狗等,旨在找到输入特征与类别之间的决策边界,以准确地对数据进行分类。

输出变量类型

  • 回归输出的是一个数值,这个数值可以是整数,也可以是实数,例如预测的房价可能是 50.5 万元,股票价格可能是 123.45 元等。
  • 分类输出的是有限个离散的类别,如二分类问题中的正类和负类,分别用 0 和 1 表示;或者多分类问题中的不同类别,如 A、B、C 等。

评估指标

  • 回归:常用的评估指标有均方误差(MSE)平均绝对误差(MAE)均方根误差(RMSE)等这些指标衡量的是预测值与真实值之间的差异程度,差异越小,说明回归模型的性能越好。
    • 均方误差的计算公式为:MSE = \frac{1}{n}\sum_{i=1}^{n}(y^{_{i}}-\hat{y}^{_{i}})^{2},其中y^{_{i}}  是真实值, \hat{y}^{_{i}}是预测值, n是样本数量。
    • 平均绝对误差的计算公式为:MAE = \frac{1}{n}\sum_{i=1}^{n}|y^{_{i}}-\hat{y}^{_{i}}|
    • 均方误差则是均方误差的平方根,即 RMSE = \sqrt{MSE}
  • 分类:常见的评估指标包括准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1 值等。

模型选择

回归
  • 常见的回归模型线性回归、多项式回归、岭回归、Lasso 回归等。
  • 线性回归假设输入特征与输出之间存在线性关系,通过最小二乘法等方法拟合出最佳的线性模型;
  • 多项式回归则可以处理非线性关系,通过增加特征的幂次来构建更复杂的模型;
  • 回归Lasso 回归则是在普通线性回归的基础上加入了正则化项,用于防止过拟合
分类
  • 常用的分类模型逻辑回归、决策树、支持向量机、朴素贝叶斯、神经网络等
  • 逻辑回归虽然名字中带有 “回归”,但实际上是一种用于二分类的广义线性模型,它通过 Sigmoid 函数将线性回归的结果映射到 0 到 1 之间,从而得到属于正类的概率
  • 决策树通过构建树状结构来进行分类决策每个内部节点是一个属性上的测试,分支是测试输出,叶节点是类别或类别分布;
  • 支持向量机则是寻找一个最优的超平面来将不同类别的数据分开
  • 朴素贝叶斯基于贝叶斯定理和特征条件独立假设来计算属于各个类别的概率,从而进行分类
  • 神经网络通过多个神经元组成的网络结构来学习复杂的分类边界,具有很强的非线性拟合能力

损失函数

  • 回归:通常使用均方误差损失函数,即模型预测值与真实值之间差的平方和的平均值。其目的是使预测值尽可能地接近真实值,通过最小化均方误差来调整模型的参数
  • 分类不同的分类模型使用的损失函数有所不同。例如,逻辑回归使用对数损失函数,也称为交叉熵损失函数,它衡量的是预测概率分布与真实概率分布之间的差异,通过最小化交叉熵损失来优化模型参数,使得预测的类别概率更加接近真实的类别分布;支持向量机使用合页损失函数,其目标是找到一个能够最大化间隔的超平面,使得分类错误的样本尽可能少,并且尽可能远离决策边界。

回归和分类目标、输出变量类型、评估指标、模型选择和损失函数等方面都存在明显的区别,在实际应用中,需要根据具体的问题和数据特点来选择合适的任务类型和相应的模型。


http://www.ppmy.cn/news/1548565.html

相关文章

AWS EC2 ubuntu 使用密码登陆

1。使用页面登录ec2 2.切换root用户 sudo -i 3.为root用户或者其它用户配置密码 passwd user passwd root 4.修改下面文件的配置vi /etc/ssh/sshd_config PermitRootLogin和PasswordAuthentication 修改为yes 第六步:重启ssh服务 systemctl restart ssh 第七步…

Linux进阶:用户、用户组、权限

root用户:超级管理员 root用户拥有最大的系统操作权限,而普通用户在许多地方的权限是受限的 普通用户的权限,一般在其HOME目录内是不受限的。一旦出了HOME目录,在大多数地方,普通用户仅有只读和执行权限,无…

基于OpenCV的图片人脸检测研究

目录 摘要 第一章 引言 第二章 基于 OpenCV 的图片人脸检测 2.1 实现原理 2.2 代码实现与分析 2.3 代码详细分析 第三章 实验结果与分析 第四章 OpenCV 人脸检测的优势与局限性 4.1 优势 4.2 局限性 第五章 结论 第六章 未来展望 参考文献 摘要 人脸检测是计算机视…

Leetcode 每日一题 392.判断子序列

问题描述 给定两个字符串 s 和 t,我们需要判断 s 是否为 t 的子序列。子序列是指在不改变剩余字符相对位置的情况下,通过删除 t 中的一些(或不删除)字符形成的新字符串。 示例 输入:s "abc", t "ah…

C语言实例_1之从4个不重复的数中,找出3个不重复的数的集合

题目 有 1、2、3、4 四个数字&#xff0c;能组成多少个互不相同且无重复数字的三位数&#xff1f;都是多少&#xff1f; 分析 可填在百位、十位、个位的数字都是 1、2、3、4&#xff0c;组成所有的排列后再去掉不满足条件的排列。 实例代码 #include<stdio.h> // 程…

如何在K8s集群中管理与使用GPU

背景 随着人工智能的兴起&#xff0c;GPU作为重要的智算算力类型愈发受到重视&#xff0c;而Kubernetes&#xff08;k8s&#xff09;作为业界主流的集群管理系统&#xff0c;如何方便管理、使用GPU也是其需要解决的一大问题&#xff0c;故此收集整理了K8s管理与使用GPU的相关资…

基于YOLOv8深度学习的婴儿情绪状态检测系统(PyQt5界面+数据集+训练代码)

婴儿的情绪状态是其表达健康状况、情感需求以及与外界互动的重要方式&#xff0c;准确识别婴儿的情绪对父母和看护者理解其需求具有关键意义。然而&#xff0c;由于婴儿语言能力的缺乏&#xff0c;他们通常通过面部表情、动作和哭声等非语言行为来表达情绪&#xff0c;因此需要…

Qt小知识-Q_GLOBAL_STATIC

你还在为创建全局静态对象烦恼嘛&#xff0c;它来了&#xff01;它来了&#xff01; qt5提供了两个宏定义Q_GLOBAL_STATIC和Q_GLOBAL_STATIC_WITH_ARGS来实现。可以创建一个全局静态对象&#xff0c;对象在第一次使用时初始化自身&#xff0c;这意味着它不会增加应用程序或库的…