从〇开始深度学习(番外)——混淆矩阵(Confusion Matrix)
写在前面
《从〇开始深度学习(番外)》系列主要记录一些细碎知识点和技能,与主线并不冲突。如果主线笔记中用得到番外篇的知识或技能,会在文中贴出链接,为此不必担心遗漏知识。
1.混淆矩阵
混淆矩阵是一种用于评估分类模型性能的表格形式,它以实际类别(真实值)和模型预测类别为基础,将样本分类结果进行统计和汇总。这里看一个实例:
对于二分类问题,混淆矩阵通常是一个2×2的矩阵,包括真阳性(True Positive, TP)、真阴性(True Negative, TN)、假阳性(False Positive, FP)和假阴性(False Negative, FN)四个元素。
这个5*5的矩阵是这样理解的:
真实值=holothurian | 真实值=echinus | 真实值=starfish | 真实值=scallop | 真实值=background | |
---|---|---|---|---|---|
预测值=holothurian | |||||
预测值=echinus | |||||
预测值=starfish | |||||
预测值=scallop | |||||
预测值=background |
而矩阵中的数值就是出现该情况的频次。
2.归一化混淆矩阵
混淆矩阵的归一化,就是对混淆矩阵做了一个归一化处理,对混淆矩阵进行归一化可以将每个单元格的值除以该类别实际样本数,从而得到表示分类准确率的百分比。这种标准化使得我们可以直观地比较类别间的分类准确率,并识别出模型在哪些类别上表现较好或较差。
实际上就是:
频次 总样本数 \frac{频次}{总样本数} 总样本数频次