在评价二分类模型性能时,有许多评价指标,其中,有一对是用面积AUC(Area Under the Curve)做评价的:ROC AUC与PR AUC
本文我们对ROC AUC与PR AUC进行多维度对比分析:
一、定义与核心原理
维度 | ROC AUC | PR AUC |
---|---|---|
全称 | Receiver Operating Characteristic AUC | Precision-Recall AUC |
横轴 | 假正率(FPR)= FP / (FP + TN) | 召回率(Recall)= TP / (TP + FN) |
纵轴 | 真正率(TPR/Recall)= TP / (TP + FN) | 精确率(Precision)= TP / (TP + FP) |
曲线生成方式 | 调整分类阈值,计算不同阈值下的TPR和FPR | 调整分类阈值,计算不同阈值下的Precision和Recall |
数值意义 | 模型对正负样本的全局排序能力 | 模型对正类样本的查准与查全的综合能力 |
二、使用场景对比
场景类型 | ROC AUC | PR AUC |
---|---|---|
类别平衡数据 | 适用(如男女用户分类) | 适用,但ROC AUC更直观 |
中度不平衡 | 仍可用,但需谨慎解读(如正类占10%) | 更优(如用户流失预测) |
严重不平衡 | 易虚高(如欺诈检测正类占0.1%) | 首选(直接反映正类性能) |
业务需求 | 需全局排序(如信用评分) | 需聚焦正类(如癌症筛查) |
典型场景示例
- 金融风控(正类占1%):
- ROC AUC=0.95:可能因负类主导而虚高,无法反映欺诈识别的实际效果。
- PR AUC=0.35:直接暴露模型对正类的低识别能力,需优化特征或采样策略。
- 广告点击预测(正类占5%):
- ROC AUC=0.85:表明模型整体区分能力良好。
- PR AUC=0.65:提示需提高精确率(减少误推成本)。
三、选择标准
决策因素 | 优先选择ROC AUC | 优先选择PR AUC |
---|---|---|
正类比例 | 正类≥10% | 正类<10% |
业务目标 | 需全局风险排序(如客户分层) | 需精准识别正类(如医学诊断) |
误判成本容忍度 | 可接受较高误判(如推荐系统) | 误判成本高(如法律审核) |
模型解释性 | 需直观展示整体性能 | 需聚焦正类细节表现 |
四、与类别不平衡程度的关系
不平衡程度 | ROC AUC表现 | PR AUC表现 |
---|---|---|
平衡(1:1) | 可靠,反映全局性能(如AUC=0.9优秀) | 可靠,与ROC AUC互补(如AUC=0.88) |
中度不平衡(1:10) | 可能虚高(如AUC=0.85,实际正类识别差) | 更敏感(如AUC=0.6,提示需优化) |
严重不平衡(1:100) | 虚高严重(如AUC=0.95但正类全漏) | 真实反映问题(如AUC=0.2,模型无效) |
示例分析
- 正类占0.5%的欺诈检测:
- ROC AUC=0.92:看似优秀,但可能因模型正确分类大量负类(TN)导致虚高。
- PR AUC=0.15:直接显示模型对欺诈交易的识别能力极差(随机模型的PR AUC=0.005)。
- 结论:在严重不平衡时,PR AUC是唯一可信指标。
建议:
- 类别不平衡时:PR AUC是黄金指标,ROC AUC仅作参考。
- 平衡数据时:两者互补,优先ROC AUC。
- 业务决策时:以PR曲线选择阈值,以PR AUC评估模型优先级。
附:正样本比例与不平衡程度及推荐评估指标的对应表
正样本比例 | 不平衡程度 | 推荐评估指标 | 备注 |
---|---|---|---|
<1% | 严重不平衡 | PR AUC、F1分数、召回率(Recall)、MCC、G-Mean | 优先关注正类的查全率(Recall)和综合性能(PR AUC),避免ROC AUC的虚高误导。 |
1%~5% | 严重不平衡 | PR AUC、F1分数、召回率(Recall)、MCC、G-Mean | 需结合过采样(SMOTE)或代价敏感学习,重点关注少数类的识别能力。 |
5%~10% | 中度不平衡 | PR AUC、F1分数、G-Mean、平衡准确率(Balanced Accuracy)、ROC AUC | 平衡查准与查全,可辅以ROC AUC验证全局排序能力。 |
10%~20% | 轻微不平衡 | ROC AUC、F1分数、精确率(Precision)、PR AUC | 常规处理即可,关注业务核心指标(如误判成本)。 |
20%~40% | 较平衡 | 准确率(Accuracy)、ROC AUC、F1分数、精确率/召回率(按业务需求侧重) | 无需特殊处理,模型优化重点转向特征工程或复杂度调整。 |
>40% | 平衡 | 准确率(Accuracy)、ROC AUC、混淆矩阵(TP/FP/TN/FN) | 常规分类任务,指标选择取决于业务容忍度(如FP或FN的代价)。 |
主要指标
-
严重不平衡(<5%):
- 核心指标:PR AUC(直接反映正类性能)、召回率(避免漏检)。
- 辅助指标:MCC(综合所有类别)、G-Mean(平衡正负类识别能力)。
- 禁用指标:准确率(虚高且无意义)。
-
中度不平衡(5%~10%):
- 核心指标:PR AUC(仍优先)、F1分数(平衡查准与查全)。
- 辅助指标:ROC AUC(验证全局能力)、平衡准确率(简单鲁棒)。
-
轻微不平衡(10%~20%):
- 核心指标:ROC AUC(全局排序)、F1分数(平衡性能)。
- 业务适配:若需高精确率(如广告推荐),优先精确率;若需高召回率(如用户流失预警),优先召回率。
-
实际应用:
- 金融风控:严重不平衡时,PR AUC + 召回率 + 误判成本矩阵。
- 医学诊断:中度不平衡时,召回率 + 特异度(Specificity)。
- 推荐系统:轻微不平衡时,精确率 + ROC AUC。