四十五、【人工智能】【机器学习】- Robust Regression(稳健回归)

news/2024/9/19 0:53:42/ 标签: 人工智能, 机器学习, 回归

 

系列文章目录

第一章 【机器学习】初识机器学习

第二章 【机器学习】【监督学习】- 逻辑回归算法 (Logistic Regression)

第三章 【机器学习】【监督学习】- 支持向量机 (SVM)

第四章【机器学习】【监督学习】- K-近邻算法 (K-NN)

第五章【机器学习】【监督学习】- 决策树 (Decision Trees)

第六章【机器学习】【监督学习】- 梯度提升机 (Gradient Boosting Machine, GBM)

第七章 【机器学习】【监督学习】-神经网络 (Neural Networks)

第八章【机器学习】【监督学习】-卷积神经网络 (CNN)

第九章【机器学习】【监督学习】-循环神经网络 (RNN)

第十章【机器学习】【监督学习】-线性回归

第十一章【机器学习】【监督学习】-局部加权线性回归 (Locally Weighted Linear Regression, LWLR)

第十二章【机器学习】【监督学习】- 岭回归 (Ridge Regression)

十三、【机器学习】【监督学习】- Lasso回归 (Least Absolute Shrinkage and Selection Operator)

十四、【机器学习】【监督学习】- 弹性网回归 (Elastic Net Regression)

十五、【机器学习】【监督学习】- 神经网络回归 

十六、【机器学习】【监督学习】- 支持向量回归 (SVR)

十七、【机器学习】【非监督学习】- K-均值 (K-Means) 

十八、【机器学习】【非监督学习】- DBSCAN (Density-Based Spatial Clustering of Applications with Noise)十九、【机器学习】【非监督学习】- 层次聚类 (Hierarchical Clustering)二十、【机器学习】【非监督学习】- 均值漂移 (Mean Shift)

二十一、【机器学习】【非监督学习】- 谱聚类 (Spectral Clustering)​​ 


目录

系列文章目录

一、基本定义

(一)、监督学习

(二)、监督学习的基本流程

(三)、监督学习分类算法(Classification)

二、 Robust Regression(稳健回归

(一)、定义

(二)、基本概念

(三)、训练过程

(四)、特点

(五)、适用场景

(六)、扩展

三、总结

四、相关书籍介绍


一、基本定义

(一)、监督学习

        监督学习(Supervised Learning)是机器学习中的一种主要方法,其核心思想是通过已知的输入-输出对(即带有标签的数据集)来训练模型,从而使模型能够泛化到未见的新数据上,做出正确的预测或分类。在监督学习过程中,算法“学习”的依据是这些已标记的例子,目标是找到输入特征与预期输出之间的映射关系。

(二)、监督学习的基本流程

        数据收集:获取包含输入特征和对应正确输出标签的训练数据集。
        数据预处理:清洗数据,处理缺失值,特征选择与转换,标准化或归一化数据等,以便于模型学习。
        模型选择:选择合适的算法,如决策树、支持向量机、神经网络等。
        训练:使用训练数据集调整模型参数,最小化预测输出与实际标签之间的差距(损失函数)。
        验证与调优:使用验证集评估模型性能,调整超参数以优化模型。
        测试:最后使用独立的测试集评估模型的泛化能力,确保模型不仅在训练数据上表现良好,也能在未见过的新数据上做出准确预测。

(三)、监督学习分类算法(Classification)

        定义:分类任务的目标是学习一个模型,该模型能够将输入数据分配到预定义的几个类别中的一个。这是一个监督学习问题,需要有一组已经标记好类别的训练数据,模型会根据这些数据学习如何区分不同类别。
        例子:垃圾邮件检测(垃圾邮件 vs. 非垃圾邮件)、图像识别(猫 vs. 狗)。


二、 Robust Regression(稳健回归

(一)、定义

Robust Regression(稳健回归)是一种统计方法,旨在处理存在异常值或离群点的数据集。与传统回归方法相比,Robust Regression 更能抵抗这些异常值的影响,从而产生更可靠的结果。

(二)、基本概念

  • 异常值: 数据集中显著偏离其他观测值的点。
  • 残差: 观测值与模型预测值之间的差异。
  • 敏感度: 模型对异常值的敏感程度。
  • Breakdown Point: 一个统计量的最大允许异常比例,超过这个比例,估计量将不再被认为是稳健的。

(三)、训练过程

  1. 数据准备: 收集训练数据集 ​,其中 xi​ 是输入特征向量,yi​ 是对应的输出值。
  2. 损失函数的选择: 选择一个稳健的损失函数,例如绝对偏差损失、Huber损失或Tukey bisquare损失。
  3. 模型训练: 使用最小化稳健损失函数的方法来拟合模型参数。这通常涉及到迭代算法,如最小化绝对偏差(Least Absolute Deviations, LAD)或最小化稳健损失函数(如M估计)。
  4. 诊断与调整: 分析残差以识别潜在的异常值,并根据需要调整模型。

(四)、特点

  • 抗异常值: Robust Regression 方法能够更好地处理异常值,不会受到极端值的严重影响。
  • 灵活性: 提供多种损失函数选项,可以根据数据集的特点选择最适合的损失函数。
  • 稳健性: 即使在数据集中存在大量异常值的情况下也能保持良好的性能。

(五)、适用场景

  • 数据集中存在异常值或离群点。
  • 数据的分布不满足普通回归方法的假设条件(如正态分布)。
  • 需要模型具有较高稳定性和可靠性的情况。

(六)、扩展

  • 加权方法: 根据观测值的可靠性给予不同的权重。
  • 自适应方法: 动态调整损失函数或权重以适应数据的变化。
  • 混合方法: 结合多种损失函数以获得更好的稳健性和准确性。

三、总结

Robust Regression 是一种旨在处理异常值的回归方法,它通过使用特殊的损失函数来降低异常值对模型的影响。与标准回归方法相比,Robust Regression 更具鲁棒性,能够在数据集存在离群点的情况下提供更可靠的估计结果。这种方法适用于数据中存在异常值的情况,或者当数据的分布不符合普通回归假设时。通过选择适当的损失函数和使用迭代算法,Robust Regression 能够有效地拟合数据,并提供更稳定的模型。

四、相关书籍介绍

《数据挖掘导论》

适用读者

  • 初学者:对数据挖掘感兴趣,希望了解基本概念和技术的新手。
  • 学生:计算机科学、统计学、商业智能等相关专业的本科生或研究生。
  • 研究人员:需要使用数据挖掘技术进行学术研究的科研人员。
  • 专业人士:数据分析师、数据科学家、业务分析师等希望提升技能的专业人士。
  • 管理者:希望了解如何利用数据驱动决策的企业高管和技术经理。

书籍下载链接:

链接:https://pan.baidu.com/s/1kNzhiII-8i0wsVrKYe3sIA?pwd=iesy 
提取码:iesy


http://www.ppmy.cn/news/1519747.html

相关文章

【Android】repositories和sourceSets指定了 `libs` 目录的区别

repositories { flatDir { dirs libs } } 这段代码的作用是告诉 Gradle 在指定的目录(这里是 libs 目录)中查找 JAR 文件或 AAR 文件。flatDir 是一种简单的文件目录结构,它不会解析子目录,只会查找指定目录中的文件。 reposito…

Arduino 串口打印小知识点

String str[]{"abc","defg","hijk","lm","n"}; int num; void setup() {Serial.begin(115200);numsizeof(str) /sizeof(str[2]);Serial.print("该数组 str[]的长度:");Serial.print(num); }void loop(…

Python编码系列—Python中的HTTPS与加密技术:构建安全的网络通信

🌟🌟 欢迎来到我的技术小筑,一个专为技术探索者打造的交流空间。在这里,我们不仅分享代码的智慧,还探讨技术的深度与广度。无论您是资深开发者还是技术新手,这里都有一片属于您的天空。让我们在知识的海洋中…

p2p、分布式,区块链笔记:基于IPFS实现的数据库orbitdb笔记

orbitdb orbitdb :Peer-to-Peer Databases for the Decentralized Web 特性说明特点无服务器、分布式、p2p编程语言JavaScript对其他语言的支持A python client for the Orbitdb HTTP API,go-orbit-db, 让我们了解一下谁在使用 js-ipfs&…

jmeter 响应乱码

Jmeter在做接口测试的时候的,如果接口响应的内容中有中文,jmeter的响应内容很可能显示乱码,为了规避这种出现乱码的问题,就要对jmeter的响应结果进行编码处理。 打开jmeter进行接口、压力、性能等测试,出现以下乱码问…

4. MyBatis如何与Spring集成?有哪些常见的配置方式?

MyBatis 可以通过多种方式与 Spring 集成,通常通过配置 Spring 来管理 MyBatis 的 SqlSessionFactory 和 Mapper,并使用 Spring 的事务管理功能来管理数据库事务。以下是 MyBatis 与 Spring 集成的常见配置方式: 1. 基于 XML 配置的集成 这是…

交叉编译 gmp

文章目录 交叉编译 gmp1 概述2 源码下载2.1 官网下载2.2 使用 apt source 下载 3 交叉编译4 关于 DESTDIR 的说明 交叉编译 gmp 1 概述 GMP (GNU Multiple Precision Arithmetic Library) 是一个用于任意精度计算设计的数学库,它的主要目标应用是密码学应用和研究…

PHP:构建高效动态网页的基石

PHP:构建高效动态网页的基石 在当今的互联网世界中,PHP作为一种服务器端脚本语言,依然占据着不可替代的地位。自1995年诞生以来,PHP凭借其简洁的语法、丰富的功能和广泛的数据库支持,成为了开发动态网页和Web应用的首选语言之一。本文将深入探讨PHP的核心优势、最新发展动…

内存管理篇-20 Linux虚拟内存管理

1.虚拟地址的经典布局 这里的内容比较少。只要就是内核用户空间的划分。内核空间又有自己的划分。也需要注意一下每个区域的性能。理论上线性映射是最简单的,所以性能最高。同时,注意内核空间是可以配置的,并不是都3:1。 2.ARM32下的内存…

android 离线的方式使用下载到本地的gradle

1、android studio在下载gradle的时候,特别慢,有的时候会下载不完的情况,这样我们就要离线使用了。 2、下载Gradle Gradle | Releases 或者 Releases gradle/gradle GitHub Gradle | Releases 这里我们下载8.10 complete版本&#xff0c…

数据库(MySQL)的基本操作

1.简介 (1)数据库 1.数据库(Data Base,简称DB):长期保存在计算机的存储设备上,数据是按照一定的规则组织起来的,能被用户、应用平台共享的数据集合。(存储、维护和管理…

C++使用日志库经验总结

1、log4cpp日志源文件路径设置 在 Visual Studio 中,C 项目的日志格式可以通过设置项目的属性来调整。如果你想要使用完整路径来显示诊断消息,可以在项目属性中的“C/C”选项卡下的“高级”属性页中找到“使用完整路径”(/FC)选项…

【设计模式】详细解释工厂模式和策略模式的区别,并给出形象生动的示例说明

工厂模式(Factory Pattern)和策略模式(Strategy Pattern)都是设计模式中的重要概念,它们用于解决不同的设计问题。下面我会详细解释它们的区别,并给出示例。 工厂模式 定义: 工厂模式是一种创…

outlook在“对我发送的邮件应用规则”时只能移动邮件副本的问题和解决方案

outlook在“对我发送的邮件应用规则时”只能移动邮件副本的问题 问题描述问题的解决方案第一步第二步 其他说明参考 问题描述 如果我们想对自己发送的邮件进行分类,可以使用规则将已发送的邮件移动到指定文件夹中,但是。当操作对象为“自己发送的邮件时…

3. MyBatis 执行原理了解吗?

MyBatis 是一个半自动化的持久层框架,它通过配置文件或注解将 SQL 语句与 Java 对象进行映射,从而简化数据库访问操作。MyBatis 的执行原理涉及多个核心组件和步骤,以下是对 MyBatis 执行原理的详细说明: 1. MyBatis 的核心组件 S…

MFC工控项目实例之八选择下拉菜单添加打钩图标

承接专栏《MFC工控项目实例之七点击下拉菜单弹出对话框》 具体添加菜单栏参考我的博客文章《MFC工控项目实例之七点击下拉菜单弹出对话框》 这里只给出相关代码 1、在SEAL_PRESSUREDlg.h文件中添加代码 class CSEAL_PRESSUREDlg : public CDialog { // Construction public:..…

PMP核心知识点—之项目运行环境

知识点1:项目合规性 不合规的项目就不应该做。 知识点2:项目影响两大因素 组织过程资产、事业环境因素 知识点3:职能型以及项目型组织结构 知识点4:矩阵型组织结构 弱矩阵—平衡矩阵—强矩阵 (项目经理权力的强弱) 知识点5&am…

开放式耳机的优缺点?音质好吗?分享四款开放式蓝牙耳机

作为蓝牙耳机的重度使用患者,我认为开放式耳机音质的好坏取决的因素有好多,包括不同的品牌、不同的‌型号及不同的产品所采用的声学技术,而且开放式耳机的音质好不好也是取决使用者的需求的,有些开放式耳机能提供更清晰的人声音频…

PostgreSQL技术内幕3:PG逻辑存储层级和物理存储结构

目录 0.概述1.PG数据组织(逻辑包含关系)2.存储目录3.文件布局4.页内数据存储和TOAST策略 0.概述 本篇用来介绍PG存储的逻辑层级关系,database->schema,到schema中可以存在的各种信息,像table,索引等(理…

谷歌浏览器与edge哪个好用

浏览器是我们工作和生活中的重要工具,其中谷歌浏览器与edge是两款备受关注的浏览器工具。那么这二者中,哪一款更胜一筹呢?本文将比较这两款浏览器的功能、性能和用户体验等,帮助大家做出明智的选择。 谷歌浏览器的历史与发展&…