Python 之Scikit-learn(七) -- Scikit-learn 中的不同度量指标详细介绍

news/2024/9/23 4:19:38/

Scikit-learn 提供了多种度量指标(metrics)来评估分类、回归、聚类等机器学习任务的性能。这些度量指标有助于判断模型的表现和优化模型参数。下面将详细介绍一些常用的度量指标及其适用情况。

1、分类任务的度量指标

准确率(Accuracy)

python">from sklearn.metrics import accuracy_score
y_true = [0, 1, 1, 0, 1]
y_pred = [0, 1, 0, 0, 1]
accuracy = accuracy_score(y_true, y_pred)
print(f"Accuracy: {accuracy}")
  • 定义:准确率是正确预测的样本占总样本的比例。
  • 适用情况:适用于类别分布均衡的分类任务。
  • 示例

精确率(Precision)

  • 定义:精确率是指所有被预测为正类的样本中实际为正类的比例。
  • 适用情况:适用于关注假阳性(False Positive)较多的场景。
  • 示例
python">from sklearn.metrics import precision_score
precision = precision_score(y_true, y_pred)
print(f"Precision: {precision}")

        召回率(Recall)

  • 定义:召回率是指所有实际为正类的样本中被正确预测为正类的比例。
  • 适用情况:适用于关注假阴性(False Negative)较多的场景。
  • 示例
python">from sklearn.metrics import recall_score
recall = recall_score(y_true, y_pred)
print(f"Recall: {recall}")

F1分数(F1 Score)

  • 定义:F1分数是精确率和召回率的调和平均数。
  • 适用情况:适用于类别不均衡的分类任务。
  • 示例
python">from sklearn.metrics import f1_score
f1 = f1_score(y_true, y_pred)
print(f"F1 Score: {f1}")

ROC曲线和AUC(ROC Curve and AUC)

  • 定义:ROC曲线绘制了假阳性率(FPR)和真阳性率(TPR)之间的关系,AUC是ROC曲线下的面积。
  • 适用情况:适用于二分类任务,特别是在样本不平衡时。
  • 示例
python">from sklearn.metrics import roc_auc_score
y_scores = [0.1, 0.4, 0.35, 0.8, 0.7]
auc = roc_auc_score(y_true, y_scores)
print(f"AUC: {auc}")

2、回归任务的度量指标

均方误差(Mean Squared Error, MSE)

  • 定义:均方误差是预测值与真实值之差的平方的平均值。
  • 适用情况:适用于大多数回归任务,特别是对较大误差比较敏感时。
  • 示例
python">from sklearn.metrics import mean_squared_error
y_true = [3, -0, 2, 7]
y_pred = [2.5, 0.0, 2, 8]
mse = mean_squared_error(y_true, y_pred)
print(f"MSE: {mse}")

均绝对误差(Mean Absolute Error, MAE)

  • 定义:均绝对误差是预测值与真实值之差的绝对值的平均值。
  • 适用情况:适用于对较大误差不太敏感的回归任务。
  • 示例
python">from sklearn.metrics import mean_absolute_error
mae = mean_absolute_error(y_true, y_pred)
print(f"MAE: {mae}")

R²分数(R² Score)

  • 定义:R²分数表示模型预测值与真实值的拟合程度,取值范围在[-∞, 1],值越接近1表示模型越好。
  • 适用情况:适用于评估模型的整体拟合效果。
  • 示例
python">from sklearn.metrics import r2_score
r2 = r2_score(y_true, y_pred)
print(f"R² Score: {r2}")

3、聚类任务的度量指标

调整兰德指数(Adjusted Rand Index, ARI)

  • 定义:ARI是用于比较聚类结果与真实标签之间的一致性的指标,范围在[-1, 1],值越大表示越好。
  • 适用情况:适用于有真实标签的聚类任务评估。
  • 示例
python">from sklearn.metrics import adjusted_rand_score
labels_true = [0, 0, 1, 1]
labels_pred = [0, 0, 0, 1]
ari = adjusted_rand_score(labels_true, labels_pred)
print(f"Adjusted Rand Index: {ari}")

轮廓系数(Silhouette Coefficient)

  • 定义:轮廓系数衡量一个样本与其自身聚类中的其他样本之间的相似性与其与最近的不同聚类中的样本之间的相似性,范围在[-1, 1]。
  • 适用情况:适用于评估无监督聚类任务的效果。
  • 示例
python">from sklearn.metrics import silhouette_score
from sklearn.cluster import KMeans
import numpy as npX = np.array([[1, 2], [1, 4], [1, 0],[4, 2], [4, 4], [4, 0]])
kmeans = KMeans(n_clusters=2, random_state=0).fit(X)
labels = kmeans.labels_
silhouette = silhouette_score(X, labels)
print(f"Silhouette Coefficient: {silhouette}")

互信息(Mutual Information)

  • 定义:互信息衡量聚类结果与真实标签之间的信息共享程度,值越高表示聚类结果越好。
  • 适用情况:适用于有真实标签的聚类任务评估。
  • 示例
python">from sklearn.metrics import normalized_mutual_info_score
nmi = normalized_mutual_info_score(labels_true, labels_pred)
print(f"Normalized Mutual Information: {nmi}")

 

 


http://www.ppmy.cn/news/1509123.html

相关文章

Elasticsearch 文档操作:Spring Boot 集成实践

Elasticsearch(简称 ES)是一个强大的搜索引擎,它提供了丰富的文档操作功能,包括索引、查询、更新和删除等。这些操作是 ES 的核心功能,对于实现高效的数据检索和分析至关重要。本文将通过一个 Spring Boot 应用中的示例…

【C#】中IndexOf的用法

在 C# 中&#xff0c;IndexOf 方法是字符串和列表&#xff08;如 List<T>&#xff09;等数据结构中常用的方法&#xff0c;用于查找指定元素或子串首次出现的位置。以下是针对不同情况使用 IndexOf 的示例。 对于字符串 对于字符串类型&#xff0c;IndexOf 方法返回子字…

超详细!!!electron-vite-vue开发桌面应用之开启调试工具(二)

云风网 云风笔记 云风知识库 上篇已经初步搭建完项目&#xff0c;这次配置比较重要的一部分&#xff0c;那就是开启调试工具&#xff0c;这是开发项目比较重要且基础的部分 vite.config.ts配置更新 main: {// Shortcut of build.lib.entry.entry: electron/main.ts,onstart(ar…

unity自动添加头部注释脚本

unity自动添加头部注释脚本&#xff0c;放在Assets目录自动生效 public class ScriptCreateInit : UnityEditor.AssetModificationProcessor {private static void OnWillCreateAsset(string path){path path.Replace(".meta", "");if (path.EndsWith(&qu…

每天一个数据分析题(四百七十一)- 假设检验

下列对假设检验的描述合理的是? A. 备择假设是研究者想收集证据予以支持的假设 B. 原假设是研究者想收集证据予以推翻的假设 C. 原假设是研究者想收集证据予以支持的假设 D. 备择假设是研究者想收集证据予以推翻的假设 数据分析认证考试介绍&#xff1a;点击进入 题目来…

理解 Go 语言的分组操作

共享资源保护、任务编排和消息传递是 Go 并发编程中常见的场景,而分组执行一批相同的或类似的任务则是任务编排中的一类情形。下面我们专门介绍分组编排的一些常用场景和同步原语,主要用来处理一组任务。我们先来介绍一个非常常用的同步原语,即 ErrGroup。 1. ErrGroup ErrG…

c++精品小游戏(无错畅玩版)

一、俄罗斯方块 #include <stdio.h> #include <string.h> #include <stdlib.h> #include <time.h> #include <conio.h> #include <windows.h>#ifdef _MSC_VER // M$的编译器要给予特殊照顾 #if _MSC_VER < 1200 // VC6及以下版本 #err…

企业数据接口:失信被执行人(人员)查询

根据搜索关键字、名称等参数&#xff0c;获取失信被执行人相关信息 批量获取企业多维度信息