机器学习中的欠拟合

embedded/2025/1/7 19:25:45/

当模型不能够准确地表达输入与输出的关系时,就是欠拟合。它在训练集和未见过的数据都会产生高误差率。过度拟合则在训练集表现出低误差率,只有对未见过的数据表现出高误差率。

当模型太过于简单时,它需要更多的训练时间、更多的输入特征、更少的正则化,此时欠拟合就可能会发生。当模型太过于复杂,随着更多的训练时间、更多的输入特征、更少的正则化处理,过度拟合就可能会发生。

欠拟合和过度拟合一样,不能够在数据中建立主导趋势,导致模型训练错误、性能低。模型当然就也很难很好地泛化到其他新的数据上(如果一个模型没有泛化的能力,那么这个模型几乎是没有用的)。这样的模型也就不能够用来做分类或预测的任务。

我们以前也提到过,高偏差和低方差是模型出现欠拟合的信号。低偏差、高方差则是出现过度拟合的信号。高偏差、低方差在训练数据集中就可以看出来,所以欠拟合比过度拟合好发现。当模型被过度训练或者太复杂,在测试数据集中就会体现出高误差率。 一般来说,过度拟合比欠拟合常见。有时,我们为了避免过度训练模型导致过度拟合,会提前停止模型训练,但是这个提前有时太早了,反而在这个情况下导致了欠拟合的问题。这里也引出另一种情况也会导致欠拟合,那就是训练不足,解决之道就是增加训练时间,这个又要考虑如何避免训练时间太长造成过度拟合的问题。训练时间的把握就是要权衡好这两者。

模型太简单,也会导致欠拟合,解决之道就是增加相关特征的输入。特征太少的话,在现实世界中,可能会对应很多可能的输出,这样的模型就像在胡说八道,实际上,是我们自己想得太简单了,增加相关的特征输入,就可以收窄这扇——更容易定位到我们期望的结果上。注意,如果增加太多长特征输入,又增加了模型过度拟合的可能性,造成模型低偏差、高方差。所以我们训练模型时,总要在欠拟合和过度拟之间找一个平衡点,就是要我们根据需求来权衡。这就是所谓的偏差方差平衡(bias-variance tradeoff)。

有一些机器学习模型更加容易出现过度拟合的问题,如决策树、KNN。要识别出过度拟合会比识别欠拟合更困难些。过度拟合在训练数据集就表现出高准确性,为了更好地评价模型是否真的有这些高的准确性,通常使用k-folds交叉验证。

在k-folds交叉验证中,数据集会被分成k个大小相关的子集(fold),接着把第一个子集充当测试集(验证集、留出集、抵抗组),剩下的数据都用作训练。然后,由二个子集充当测试集,剩下的数据都用作训练。依次类推,直到这k个子集都做过一次测试集为止。每一交迭代都会得到一个关于模型准确性的分数,当迭代完所有子集,将所得的分数取平均值,将其作为评价模型准确性的最终分数。我们可以根据这个分数,了解我们的模型的拟合情况。


http://www.ppmy.cn/embedded/151650.html

相关文章

.NET Core + Kafka 开发指南

什么是Kafka Apache Kafka是一个分布式流处理平台,由LinkedIn开发并开源,后来成为Apache软件基金会的顶级项目。Kafka主要用于构建实时数据管道和流式应用程序。 Kafka 架构 从下面3张架构图中可以看出Kafka Server 实际扮演的是Broker的角色, 一个Kafka Cluster由多个Bro…

五类推理(逻辑推理、概率推理、图推理、基于深度学习的推理)的开源库 (一)

在开发中,有一些开源库可以实现不同类型的推理,包括逻辑推理、概率推理、图推理、基于深度学习的推理等。以下是五类推理(逻辑推理、概率推理、图推理、基于深度学习的推理)的现成开源库,它们各自的功能、特点和适用场…

AcWing练习题:最大值

给定三个整数,请你找出它们中的最大值。 下列公式可能对你有所帮助: max(a,b)(ababs(a−b))2 输入格式 输入占一行,包含三个整数。 输出格式 输出格式为 X eh o maior,其中 X 为三个数中的最大值。 数据范围 1≤给定整数≤…

企业内训|阅读行业产品运营实战训练营-某运营商数字娱乐公司

近日,TsingtaoAI公司为某运营商旗下数字娱乐公司组织的“阅读行业产品运营实战训练营”在杭州落下帷幕。此次训练营由TsingtaoAI资深互联网产品专家程靖主持。该公司的业务骨干——来自内容、市场、业务、产品与技术等跨部门核心岗位、拥有8-10年实战经验的中坚力量…

C++软件设计模式之中介者模式

中介者模式(Mediator Pattern)是一种行为设计模式,它的主要目的是通过引入一个中介者对象来简化多个对象之间的交互,降低它们之间的耦合度。中介者模式使得这些对象可以通过中介者进行通信,而不需要直接相互引用&#…

Nginx整理

1.1Nginx 概述和安装 1.1.1Nginx 介绍 Nginx:engine X ,2002年开发,分为社区版和商业版(nginx plus ) 2019年3月11日 F5 Networks 6.7亿美元的价格收购 Nginx是免费的、开源的、高性能的HTTP和反向代理服务器、邮件代理服务器、以及TCP/UDP…

Linux驱动开发(16):输入子系统–电容触摸驱动实验

有关电容触摸的基础知识内容可以参考野火STM32相关教程,这里只介绍电容触摸驱动的相关内容。 本章配套源码、设备树以及更新固件位于“~/embed_linux_driver_tutorial_imx6_code/linux_driver/touch_scream_GTxxx”目录下。 触摸面板通过双面胶粘在显示屏上&#…

在C++中,dynamic_cast是一种用于在类的继承体系中进行安全向下转型

在C中,dynamic_cast是一种用于在类的继承体系中进行安全向下转型(即将基类指针或引用转换为派生类指针或引用)的操作符。它主要用于多态环境中,以确保类型转换是有效的。如果转换无效,dynamic_cast将返回nullptr&#…