(统计学习方法|李航)第一章统计学习方法概论-一二三节统计学习及统计学习种类,统计学习三要素

news/2024/12/27 3:44:21/

目录

一·,统计学习

1.统计学习的特点

2.统计学习的对象

3.统计学习的目的

4.统计学习的方法

5.统计学习方法的研究

6.重要性

二,统计学习的基本种类

1.监督学习

(1)输入空间,输出空间和特征空间

(2)联合概率分布

(3)假设空间

(4)问题的形式化

2.无监督学习

3.强化学习

4.半监督学习与主动学习​编辑

三,统计学习方法三要素

1.模型

2.策略

(1)损失函数和风险函数

(2)经验风险最小化与结构风险最小化

3.算法


一·,统计学习

1.统计学习的特点

定义:统计学习(statistical learning)是一门计算机基于数据构建概率模型并运用模型对数据进行预测和分析的一门学科。

统计学习也称为统计机器学习。

  • 统计学习以计算机网络为平台
  • 统计学习以数据为研究对象
  • 统计学习的目的是对数据进行预测和分析
  • 统计学习以方法为中心
  • 统计学习是概率论,统计学,信息论,计算机理论,最优化理论及计算机科学等对各领域的交叉学科。

2.统计学习的对象

对象是数据(data)——数字,文字,图像,视频及其组合

过程:从数据出发,提取数据的特征,抽象出数据模型,发现数据的知识,又回到数据

的分析与预测上取,

3.统计学习的目的

考虑学习什么样的模型如何学习模型,以使模型能对数据准确的预测和分析

同时考虑尽可能地提高学习效率。

4.统计学习的方法

基于数据构建概率统计模型从而对数据进行预测和分析。

统计学习由监督学习无监督学习强化学习组成。

5.统计学习方法的研究

统计学习方法的研究一般包括统计学习方法统计学习理论统计学习应用三个方面

6.统计学习的重要性

二,统计学习的基本种类

统计学习(统计机器学习)一般包括监督学习,无监督学习,强化学习

有时还包括半监督学习和主动学习

1.监督学习

监督学习(supervised learning)是指从标注数据学习预测模型的机器学习问题。

标注数据表示输入输出的对应关系预测模型给定的输入产生相应的输出

监督学习的本质是学习输入到输出的映射的统计规律

(1)输入空间,输出空间和特征空间

(2)联合概率分布

监督学习假设输入与输出的随机变量X和Y遵循

联合概率分布P(X,Y)

P(X,Y)表示分布函数和或分布密度函数

训练数据与测试数据被看作是依联合概率分布

P(X,Y)独立同分布产生的。

(3)假设空间

模型属于由输入空间输出空间映射的集合,这个集合就是假设空间

假设空间也即监督学习所要学习的范围

(4)问题的形式化

监督学习分为学习预测两个过程,由学习系统和预测系统共同完成。

预测形式:选择大的条件概率进行输出

y表示输出(like/dislike),x表示实例x的特征向量

2.无监督学习

        无监督学习(unsupervised learning)是指从无标注数据中学习预测模型的机器学习问题。

无标注数据是自然得到的数据,预测模型表示数据的类型,转换或概率。

无监督学习的本质是学习数据中的统计规律或潜在结构

无监督学习可用于对已有数据的分析,也可用于对未来数据的预测。流程与监督学习相同。

 

3.强化学习

        强化学习(reinforcement learning)是指智能系统与环境的连续互动中学习最优行为的机器学习问题。

强化学习的本质是学习最优的序贯决策。

强化学习过程中,智能系统不断地试错,以达到学习最优策略的目的。

4.半监督学习与主动学习

三,统计学习方法三要素

统计学习方法是由模型,策略和算法三要素构成

1.模型

统计学习首要考虑的问题是学习什么样的模型

在监督学习过程中,模型就是所要学习的条件概率分布决策函数

模型的假设空间包含所有可能的条件概率分布或决策函数

2.策略

有了模型的假设空间,接下来要考虑的就是按照什么样的准则学习或选择最优的模型

(1)损失函数和风险函数

损失函数:度量模型一次预测的好坏

风险函数:度量平均意义下模型预测的好坏

由于模型的输入,输出(X,Y)是随机变量,遵循联合分布P(X,Y)

所以损失函数的期望是:

 注意损失函数:

为Y(真实值)与f(x)预测值的不同方式的接近程度的比较。

(

  • 0-1损失函数针对的是分类问题
  • 平方损失函数和绝对损失函数针对的是回归问题
  • 对数损失函数针对的是概率模型

)

(2)经验风险最小化与结构风险最小化

根据大数定律,当N趋向于无穷大时:

经验损失(Remp)就会趋于 风险函数

经验风险:那每一个属性的值对应的损失函数的求一遍取平均值。取不同属性影响的最小值。

(经验风险越小,说明越拟合模型)

结构风险:

在后面加上了一个正则项,防止模型过拟合。

————过度的拟合数据,反而会使结果变差。

策略就是选取一个目标函数:(是经验风险还是结构风险)

从而达到优化模型的目的

 我们在训练集中发现拟合程度越来越好

但在dev(验证集)中有一个类似于二次函数的图像

(这就是一个过拟合的现象)

我们最终选择module2作为我们的模型,因为验证集下最贴近真实结果。

测试集下的73就是最终可以拿出来跟别人比较的分数。

3.算法

 


http://www.ppmy.cn/news/1021322.html

相关文章

[Python] 课时统计

废话不多说,直接上代码: import os from moviepy.editor import VideoFileClipdef calculate_total_duration(directory):total_duration 0for filename in os.listdir(directory):if filename.endswith((.mp4)): # 对该文件夹下的.mp4,.fl…

Day 26 C++ list容器(链表)

文章目录 list基本概念定义结构双向迭代器优点缺点List和vector区别存储结构内存管理迭代器稳定性随机访问效率 list构造函数——创建list容器函数原型示例 list 赋值和交换函数原型 list 大小操作函数原型示例 list 插入和删除函数原型示例 list 数据存取函数原型注意示例 lis…

Aviator这么丝滑,怎么实现的呢?

大家好,我是老三,在上期 里我们介绍了轻量级规则引擎AviatorScript的基本用法和一些使用案例,这期我们来研究一下,这么丝滑的规则脚本是怎么实现的。 概览 我们先来回顾一个简单的例子: Testpublic void test(){//表…

共享广告主项目:广告也能共享?全民广告时代来袭

科思创业汇 大家好,这里是科思创业汇,一个轻资产创业孵化平台。赚钱的方式有很多种,我希望在科思创业汇能够给你带来最快乐的那一种! 广告是我们日常生活中在衣食住行中可以看到的一种宣传方式。广告作为互联网社会的信息传播方…

公网环境Windows系统,远程桌面控制树莓派《内网穿透》

远程桌面控制树莓派,我们可以用xrdp协议来实现,它内部使用的是windows远程桌面的协议。我们只需要在树莓派上安装xrdp,就可以在同个局域网下远程桌面控制树莓派。 而如果需要在公网下远程桌面控制树莓派,可以通过cpolar内网穿透&a…

配置页面的路由

1.下载router npm i router 2.注册路由 文件路径 :src/router/index.js import Vue from "vue"; import VueRouter from "vue-router"; Vue.use(VueRouter); import Home from "../components/home.vue"; import Main from …

Python小白入门:文件、异常处理和json格式存储数据

这里写自定义目录标题 所用资料 一、从文件中读取数据1.1 读取整个文件1.2 文件路径1.3 逐行读取1.4 创建一个包含文件各行内容的列表1.5 使用文件的内容1.6 包含一百万位的大型文件1.7 圆周率值中包含你的生日吗练习题 二、写入文件2.1 写入空文件2.2 写入多行2.3 附加到文件练…

IO密集时epoll还高效吗?

io特别密集时为什么 epoll 效率不高。原因是: 连接密集(短连接特别多),使用epoll的话,每一次连接需要发生epoll_wait->accpet->epoll_ctl调用,而使用select只需要select->accpet,减少了…