机器学习 - 如何理解函数集合中的准确性、召回率、F1分数呢?

news/2025/1/14 0:35:02/

机器学习中,准确性(Accuracy)、召回率(Recall)、和F1分数是常用的模型性能评价指标,它们从不同的角度衡量模型的表现。要理解它们,首先需要了解它们的定义和适用场景:

1. 基本概念:分类问题中的混淆矩阵

混淆矩阵是分类问题中计算这些指标的基础,它展示了模型预测结果与实际标签之间的对比。以下是一个二分类问题的混淆矩阵:

预测为正类(Positive)预测为负类(Negative)
实际为正类真正类(TP)假负类(FN)
实际为负类假正类(FP)真负类(TN)
  • TP(True Positive):模型正确地预测为正的样本数。
  • FN(False Negative):模型错误地预测为负的正样本数。
  • FP(False Positive):模型错误地预测为正的负样本数。
  • TN(True Negative):模型正确地预测为负的样本数。

2. 准确性(Accuracy)

定义

准确性是所有正确预测(包括正类和负类)占总样本的比例。

优点
  • 简单直观,适合类分布平衡的情况。
缺点
  • 对于类别不平衡的问题不敏感。例如,在99%的样本都是负类的情况下,模型全预测为负类也能有99%的准确性,但实际上完全无效。
适用场景
  • 类别分布均衡,且正负类的重要性相当时。

3. 召回率(Recall)

定义

召回率是实际为正类的样本中,模型正确预测为正类的比例。

优点
  • 更关注正类的覆盖率,适合需要降低漏判率的场景。
缺点
  • 不考虑假正类(FP)的数量,可能导致过多错误预测为正类。
适用场景
  • 敏感任务:如疾病检测、垃圾邮件检测、金融风控等,对漏报成本较高时。
    • 例如:医疗诊断中,漏诊(FN)可能导致严重后果,因此优先提高召回率。

4. 精确率(Precision)

定义

精确率是模型预测为正类的样本中,真正为正类的比例。

优点
  • 更关注模型预测结果的可信度,适合降低误报率的场景。
缺点
  • 不考虑假负类(FN)的数量,可能导致低覆盖率。
适用场景
  • 严格任务:如信用卡欺诈检测、推荐系统等,对误报成本较高时。
    • 例如:风控中,过多的假正类(FP)可能导致业务资源浪费,因此需要高精确率。

5. F1分数

定义

F1分数是精确率和召回率的调和平均数,用于权衡二者:

优点
  • 综合考虑精确率和召回率,适合需要平衡两者的场景。
缺点
  • 如果任务对精确率或召回率有不同的侧重,F1分数可能不完全反映需求。
适用场景
  • 精确率和召回率同等重要时。
    • 例如:文本分类、舆情分析等,需要兼顾正类的覆盖率和预测准确性。

6. 示例说明

场景:垃圾邮件分类

假设共有100封邮件:

  • 其中20封是垃圾邮件,80封是正常邮件。
  • 模型预测结果如下:
    • TP = 15(15封垃圾邮件被正确预测为垃圾邮件)
    • FN = 5(5封垃圾邮件被预测为正常邮件)
    • FP = 10(10封正常邮件被预测为垃圾邮件)
    • TN = 70(70封正常邮件被正确预测为正常邮件)
计算:

7. 如何选择指标?

  • 优先准确性:适合类分布平衡且误分类成本相当的场景(如图像分类、语音识别)。
  • 优先召回率:适合正类漏判成本高的场景(如医疗诊断、风控审核)。
  • 优先精确率:适合负类误判成本高的场景(如广告推荐、信用欺诈检测)。
  • 优先F1分数:适合需要精确率和召回率平衡的场景。

准确性、召回率和F1分数是从不同角度衡量模型的性能。在选择使用哪个指标时,需要结合任务需求、错误代价和类别分布综合考量。对于实际问题,通常不仅关注单一指标,还需综合使用多个指标来全面评价模型表现。

附:对调和平均数和算数平均数的理解:

F1分数中的调和平均数是一种用来综合两个指标(通常是精确率 Precision 和召回率 Recall)的数学方法。相比算术平均数,调和平均数对两个值之间的平衡性要求更高,更加关注较小的值。

1. 调和平均数的定义

2、调和平均数 vs. 算术平均数

3. 为什么F1分数使用调和平均数?

4. 示例分析

假设一个分类模型的精确率和召回率如下:

  • 模型A:精确率 = 0.8,召回率 = 0.2
  • 模型B:精确率 = 0.5,召回率 = 0.5
计算F1分数:

  • 调和平均数在F1分数中的作用是综合两个指标的表现,同时更关注较小值,只有当精确率和召回率同时较高时,F1分数才会高。
  • 这使得F1分数成为一个能够平衡精确率和召回率的指标,适用于模型需要兼顾两者的场景,尤其是在分类问题中。

http://www.ppmy.cn/news/1562915.html

相关文章

制造业该怎么做数据治理?

什么是数据治理? 简单来说,数据治理就是管好企业的数据家底,就像管家一样,得有规划、有监督、还得落实执行。目标就是让数据在整个生命周期里都保持高质量、合规合法、安全可靠、用起来方便。这可不光是收集、存储和使用数据那么…

用 Python 绘制可爱的招财猫

✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连✨ ​​​​​ ​​​​​​​​​ ​​​​ 招财猫,也被称为“幸运猫”,是一种象征财富和好运的吉祥物,经常…

【深度学习之PyTorch】

目录 一、什么是PyThon? 二、张量的创建 2.1 指定数据创建 2.2 指定形状、指定数据创建 2.3 创建指定类型的张量 2.4 创建线性张量 2.5 创建随机张量 2.6 创建全0张量 2.7 创建全1张量 2.8 创建指定张量 2.9 总结 三、张量的类型转换 3.1 张量元素的类型转…

加强移动应用安全,应用加固不可或缺

随着移动设备的普及,手机应用已经成为我们生活中不可或缺的一部分。无论是在线购物、银行支付,还是日常通讯、娱乐,移动应用都在处理中大量敏感数据,这使得它们成为网络攻击者的主要目标。针对这一不断加剧的安全威胁,…

109周四复盘 (183)慢速

1、关键词: 战斗体验、慢速 2、昨晚新增了伤害数值UI,虽然只是简单的数字动画,但对打击感还是有所帮助的。 3、白天主要是某关卡的战斗体验优化, 起初的版本问题很多,但一直没有下决心去彻底解决,各种杂事…

基于ILI9341液晶屏+STM32U5单片的显示试验

试验要求: 1、通过串口,下发两个命令 STR和PIC; 2、STR模式: (1)串口输入什么,屏幕上显示什么 (2)如果屏幕满,自动下滚 (3)输入回车&a…

【轻量级推荐算法框架】‌ReChorus‌ 是一个高效、可扩展的轻量级推荐算法框架

‌ReChorus‌ 是一个高效、可扩展的轻量级推荐算法框架,基于PyTorch实现。该框架旨在解决推荐系统中算法实现细节、评价方式、数据集处理等方面的差异,帮助缓解可复现性问题。ReChorus实现了多种不同类型的推荐算法,包括常规推荐、序列推荐、…

STM32供电参考设计

STM32供电参考设计 ​ 在图中有VDD,VSS和VDDA,VSSA两种类型的供电引脚,其数据手册解释如下: ​ 令我不解的是:VDDA和VSSA必须分别连接到VDD和VSS,这是什么意思?有大佬能够解答一下吗&#xff1f…