在机器学习中,混淆矩阵(Confusion Matrix)是一个非常重要的工具,用于评估分类模型的性能。它表现了模型预测结果与实际值之间的关系。对于二分类问题,混淆矩阵通常是一个2x2的矩阵,包括以下四个部分:
- 真正例(True Positives, TP):模型正确预测为正例(例如,正确预测患病)的数量。
- 假正例(False Positives, FP):模型错误预测为正例(例如,错误地预测患病)的数量。这也被称为“假阳性”。
- 真负例(True Negatives, TN):模型正确预测为负例(例如,正确预测未患病)的数量。
- 假负例(False Negatives, FN):模型错误预测为负例(例如,错误地预测未患病)的数量。这也被称为“假阴性”。
混淆矩阵通常以表格形式表示,如下:
| 预测正例 | 预测负例 | |
|---|---|---|
| 实际正例 | TP(有病且预测对) | FN(有病预测为没病) |
| 实际负例 | FP(没病预测为有病) | TN (没病且预测对) |
混淆矩阵的作用:
- 性能指标:它可以用来计算各种性能指标,如准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F1分数。
- 诊断问题:通过查看哪些类型的错误更常见(例如,假阳性比假阴性多),可以帮助诊断模型的问题,并指导后续的模型改进。
例子:
假设一个用于疾病诊断的模型,在100个病例中有30个实际患病,70个未患病。如果模型预测有25个患病且都正确(TP=25),但也错误地将5个未患病的人预测为患病(FP=5),同时漏掉了5个实际患病的人(FN=5),并正确识别出65个未患病的人(TN=65),那么混淆矩阵就可以帮助识别和量化这些情况。