其中 ncorrectn_{correct}ncorrect 为被正确分类的样本个数,ntotaln_{total}ntotal 为总体样本个数。
准确率是分类问题中最简单也是最直观的评价指标,但存在明显的缺陷。比如,当负样本占99%时,分类器把所有样本都预测为负样本也可以获得99%的准确 率。所以,当不同类别的样本比例非常不均衡时,占比大的类别往往成为影响准确率的最主要因素。
做模型或做评估任务时,刚刚开始我们还是会简单的用Accuracy来做评估 —— 因为样本不均衡的情况会比较少。
目前机器学习与大模型正在使用的评估指标
混淆矩阵是机器学习中总结分类模型预测结果的情形分析表,以矩阵形式将数据集中的记录按照真实的类别与分类模型预测的类别判断两个标准进行汇总。
True Positive(TP):真正类。正类被预测为正类。 False Negative(FN):假负类。正类被预测为负类。 False Positive(FP):假正类。负类被预测为正类。 True Negative(TN):真负类。负类被预测为负类。 | ![]() |
术语: Reference: 真实值 Prediction: 预测值 T: True P: Positive F: False N: Negative
举例
Precision=TPTP+FPPrecision = \frac{TP}{TP+FP}Precision=TP+FPTP
精准率,表示预测结果中,预测为正样本的样本中,正确预测的概率。
T、P、F、N 见混淆矩阵 预测为正样本里,有多少判断对的了
召回率,表示在原始样本的正样本中,被正确预测为正样本的概率。
原始数据的正样本中,有多少被判断对的了
Precision值和Recall值是既矛盾又统一的两个指标,为了提高Precision值,分类器需要尽量在“更有把握”时才把样本预测为正样本,但此时往往会因为过于保守而漏掉很多“没有把握”的正样本,导致Recall值降低。
F1-score是Precision和Recall两者的综合,是一个综合性的评估指标。
Micro-F1:不区分类别,直接使用总体样本的准召计算f1 score。
Macro-F1:先计算出每一个类别的准召及其f1 score,然后通过求均值得到在整个样本上的f1 score。
数据均衡,两者均可;样本不均衡,相差很大,使用Macro-F1;样本不均衡,相差不大,优先选择Micro-F1。
举例
在做分类任务时,一般都要阶段性的输出评估指标 上图是某企业按期向""业务部门”输出的各个指标的列举。
这是因为RMSE是先对误差进行平方的累加后再开方,它其实是放大了较大误差之间的差距。
而MAE反应的是真实误差。因此在衡量中使RMSE的值越小其意义越大,因为它的值能反映其最大误差也是比较小的。
阅读量:1005
点赞量:0
收藏量:0