机器学习基础-机器学习的常用学习方法

devtools/2025/1/16 5:36:08/

目录

半监督学习的概念

规则学习的概念

基本概念

机器学习里的规则

逻辑规则

规则集

充分性与必要性

冲突消解

命题逻辑 → 命题规则

序贯覆盖

单条规则学习

剪枝优化

强化学习的概念

1. 强化学习对应了四元组

2. 强化学习的目标

强化学习常用马尔可夫决策过程 (MDP) 描述

1. 机器所处的环境 F

2. 状态空间 X

3. 机器能采取的行为空间 A

4. 策略 (policy) π

5. 潜在的状态转移 (概率) 函数 P

6. 潜在的奖赏 (reward) 函数 R

强化学习vs监督学习


半监督学习的概念

少量有标签样本和大量有标签样本进行学习;这种方法旨在利用未标注数据中的结构信息来提高模型性能,尤其是在标注数据获取成本高昂或困难的情况下。


规则学习的概念

规则学习(Rule Learning)是一种机器学习方法,它旨在从数据中自动发现和提取出能够描述数据模式的规则。这些规则通常是人类可读的,并且可以用来进行预测、分类或解释数据。规则学习的目标是找到一组简洁而有效的规则,使得这些规则能够在新的、未见过的数据上做出准确的决策。

基本概念

机器学习里的规则

        若......则......

  • 解释:如果预测函数 h^(x) 的输出等于某个值 y^​,则实际输出 y 也应为 y

  • 解释:如果预测函数 h(x) 的输出大于0,则样本属于正类(class = 1);否则属于负类(class = -1)。

  • 解释:如果样本 x 到中心点 ci​ 的距离小于到其他所有中心点的距离,则样本 x 被分配到簇 ci。

逻辑规则

规则集

  • 如果西瓜的根蒂是缩缩的且肚脐是凹陷的,则该西瓜是好瓜。
  • 如果西瓜的纹理是模糊的,则该西瓜不是好瓜。

充分性与必要性

  • 充分性: 如果条件满足,则结论必然成立。
  • 必要性: 如果结论成立,则条件必须满足。

冲突消解

  • 顺序规则: 按照规则的顺序进行匹配和应用。
  • 缺省规则: 在没有明确规则的情况下使用默认规则。
  • 元规则: 用于处理规则之间的冲突或优先级问题。

命题逻辑 → 命题规则

  • 原子命题:

        用大写字母表示,如 A,B,C,…
  • 逻辑连词:

        包括:←,→,↔,∧,∨,¬,…
        eg:
    • 好瓜←(根蒂=蜷缩)∧(脐部=凹陷)

      这个规则可以读作:“如果西瓜的根蒂是蜷缩的且脐部是凹陷的,则该西瓜是好瓜。”
       

序贯覆盖

  • 主要一个生成规则集的机器学习算法,主要用于分类任务。
  • 在训练集上每学到一条规则,就将该规则覆盖的样例去除,然后以剩下的样例组成训练集重复上述过程(分治策略)

单条规则学习

  • 目标:寻找一组最优的逻辑文字来构成规则体
  • 本质:搜索问题
  • 方法:
    • 自顶向下:一般到特殊(特化)
      eg:初始时假设“所有西瓜都是好瓜”,然后逐步增加条件,如“根蒂蜷缩且脐部凹陷”,以更精确地定义哪些西瓜是好瓜。



    • 自底向上:特殊到一般(泛化)

剪枝优化

  • 预剪枝
    • 使用似然率统计量 (LRS) 来评估规则的有效性,并在规则生成过程中进行剪枝。
    • 目的是减少过拟合,提高模型的泛化能力。
  • 后剪枝
    • 在规则生成完成后,通过穷举所有可能的剪枝操作来优化规则集。
    • 减错剪枝(REP)
      • 用验证集反复剪枝直到准确率无法提高
      • 穷举所有可能的剪枝操作(删除文字,删除规则),复杂度非常高
  • 两者结合
    • IREP:每生成一条新规则即对其进行REP剪枝
    • IREP*:对IREP的改进
    • RIPPER:具体过程如下

① 用IREP*生成规则集,但发现规则覆盖了两个负样本

② 选取该规则,找到其覆盖的样例,之后重新生成规则

③ 特化原规则后再泛化

④ 把新规则和原规则分别置入规则集进行评价,留下最好的

④ 反复优化直到无法进步


强化学习的概念

强化学习(Reinforcement Learning, RL)是机器学习的一个分支,它关注的是如何基于环境所给予的奖励或惩罚信号来采取行动,以实现某种长期目标。在强化学习中,智能体(Agent)通过与环境(Environment)交互来进行学习,其目的是找到一种策略(Policy),使得累积的奖励最大化。

1. 强化学习对应了四元组

E=<X,A,P,R>

  • X: 状态空间,表示智能体感知到的环境状态。
  • A: 动作空间,表示智能体可以采取的动作。
  • P: 状态转移概率函数,表示在给定当前状态 xx 和动作 aa 下转移到下一个状态 x′x′ 的概率。
  • R: 奖赏函数,表示在给定当前状态 xx 和动作 aa 下获得的即时奖赏。
2. 强化学习的目标
  • 目标: 机器通过在环境中不断尝试从而学到一个策略 π,使得长期执行该策略后得到的累积奖赏最大。

强化学习常用马尔可夫决策过程 (MDP) 描述

1. 机器所处的环境 F
  • 描述: 机器所处的环境。
  • 示例: 在种西瓜任务中,环境是西瓜生长的自然世界。
2. 状态空间 X
  • 定义: x∈X 是机器感知到的环境的描述。
  • 示例: 瓜苗长势的描述。
3. 机器能采取的行为空间 A
  • 定义: 机器能采取的行为集合。
  • 示例: 浇水、施肥等。
4. 策略 (policy) π
  • 定义: π:X→A (或 π:X×A→R)
    • 策略 π 是一个从状态空间 X 到行为空间 A 的映射,表示在给定状态下智能体应采取的动作。
  • 示例: 根据瓜苗状态是缺水时,返回动作浇水。
5. 潜在的状态转移 (概率) 函数 P
  • 定义: P:X×A×X→R
    • P 描述了在给定当前状态 x 和采取动作 a 后,转移到下一个状态 x′ 的概率。
  • 示例: 瓜苗当前状态缺水,选择动作浇水,有一定概率恢复健康,也有一定概率无法恢复。
6. 潜在的奖赏 (reward) 函数 R
  • 定义: R:X×A×X→R 或 R:X×X→R
    • 表示在状态 x 下采取动作 a 并转移到状态 x′ 时获得的奖赏。
  • 示例: 瓜苗健康对应奖赏 +1,瓜苗凋零对应奖赏 -10。

强化学习vs监督学习


http://www.ppmy.cn/devtools/150859.html

相关文章

hadoop3.3和hive4.0安装——单节点

hadoop3.3x和hive4.0安装部署 为什么我要安装hive4.0&#xff0c;因为阿里云镜像只有hive4.0 软件相互兼容性版本 系统centos7 uname -a如果内核3.0以上可以用 安装jdk1.8以上的版本&#xff08;配置好环境变量&#xff09; hadoop3.3.x与hive4.0.x 创建目录 mkdir -p /us…

Java SpringBoot + Vue + Uniapp 集成JustAuth 最快实现多端三方登录!(QQ登录、微信登录、支付宝登录……)

注&#xff1a;本文基于 若依 集成just-auth实现第三方授权登录 修改完善&#xff0c;所有步骤仅代表本人如下环境亲测可用&#xff0c;其他环境需自辩或联系查看原因&#xff01; 系统环境 运行系统&#xff1a;Windows10专业版、Linux Centos7.6 Java 版本&#xff1a;1.8.0_…

【硬件介绍】Type-C接口详解

一、Type-C接口概述 Type-C接口特点&#xff1a;以其独特的扁头设计和无需区分正反两面的便捷性而广受欢迎。这种设计大大提高了用户的使用体验&#xff0c;避免了传统USB接口需要多次尝试才能正确插入的问题。Type-C接口内部结构&#xff1a;内部上下两排引脚的设计虽然可能不…

redhat安装docker 24.0.7

1、下载docker镜像包 wget https://download.docker.com/linux/static/stable/x86_64/docker-24.0.7.tgz 2、解压 tar -xvf docker-24.0.7.tgz 3、解压的docker文件夹全部移动至/usr/bin目录 cd docker cp -p docker/* /usr/bin 4、注册服务 vi /usr/lib/systemd/syste…

七十五:握手的优化:Session缓存、Ticket票据及TLS 1.3的0-RTT

引言 在现代互联网环境中&#xff0c;安全性和性能是设计网络协议时至关重要的两个方面。传输层安全性&#xff08;TLS&#xff09;协议是实现安全传输的关键机制。然而&#xff0c;传统的TLS握手过程虽然安全&#xff0c;但是存在潜在的延迟问题。为了优化握手的效率&#xf…

MLX90640自制热像仪(四) LVGL UI界面设计 移植 SquareLine Studio

SquareLine Studio 1.5.0是一款LVGL图形化的软件&#xff0c;LVGL官方的软件&#xff0c;针对这个软件我们主要做的除了开发&#xff0c;就是移植到自己的板端&#xff0c;过程中会遇到各种各样的问题。 下面附上源代码&#xff1a; // This file was generated by SquareLine…

51c自动驾驶~合集46

我自己的原文哦~ https://blog.51cto.com/whaosoft/13050104 #世界模型会是L3自动驾驶的唯一解吗 三维空间占有率&#xff08;3D Occupancy&#xff09;预测的目的是预测三维空间中的每个体素是否被占有&#xff0c;如果被占有&#xff0c;则对应的体素将被标记。3D Semant…

网络学习记录2

一、复习网络基础知识(基础&少量&持续)&#xff1a; 1、巩固OSPF协议&#xff1a; ①OSPF按工作区域分类,分为IGP&#xff08;Interior GatewayProtocols内部网关&#xff09;和EGP&#xff08;Exterior GatewayProtocols外部网关&#xff09;&#xff0c;按照工作机…