使用MNIST数据集,这是一组由美国高中生和人口调查局员工手写的70000个数字的图片。
该数据集分成训练集(前6万张图片)和测试集(最后1万张图片)
1.训练二元分类器
先简化问题,只尝试识别一个数字,比如数字5
这里我们使用SGDClassifier分类器,你也可以使用RandomForestClassifier分类器
from sklearn.datasets import fetch_openml # 我的sklearn版本为1.0.2
from sklearn.linear_model import SGDClassifier
import matplotlib as mpl
import matplotlib.pyplot as plt
import numpy as np
# 下载mnist数据集,fetch_openml默认返回的是一个DataFrame,设置as_frame=False返回一个Bunch
# mnist.keys() 可查看所有的键
# data键,包含一个数组,每个实例为一行,每个特征为一列。
# target键,包含一个带有标记的数组
mnist = fetch_openml('mnist_784', version=1, as_frame=False)
# 共有7万张图片,因为图片是28×28像素,所以每张图片有784个特征,每个特征代表了一个像素点的强度,从0(白色)到255(黑色)
x, y = mnist["data"], mnist["target"] # x.shape=(70000, 784),y.shape=(70000,)
y = y.astype(np.uint8) # 注意标签是字符,我们把y转换成整数
# 将数据集分为训练集和测试集
x_train, x_test, y_train, y_test = x[:60000], x[60000:], y[:60000], y[60000:]
# 我们可以看到第一张图片是5
some_digit = x[0]
some_digit_image = some_digit.reshape(28, 28) # 把长为784的一维数组转换成28x28的二维数组
# imshow用于生成图像,参数cmap用于设置图的Colormap,如果将当前图窗比作一幅简笔画,则cmap就代表颜料盘的配色
plt.imshow(some_digit_image, cmap=mpl.cm.binary)
plt.axis("off") # 关掉坐标轴
plt.show()
# 使用随机梯度下降(SGD)分类器,比如Scikit-Learn的SGDClassifier类
y_train_5 = (y_train == 5)
y_test_5 = (y_test == 5)
# max_iter最大迭代次数,random_state用于打乱数据,42表示一个随机数种子
sgd_clf = SGDClassifier(max_iter=1000, random_state=42)
sgd_clf.fit(x_train, y_train_5) # 在整个训练集上进行训练
# 模型预测
print(sgd_clf.predict([some_digit])) # 返回true
2.性能测量
①交叉验证(Cross-validation)
交叉验证就是将拿到的训练数据,分为训练和验证集。首先用训练集对模型进行训练,再利用验证集来测试该模型。
n折交叉验证:将数据分成n份,其中1份作为验证集。然后经过n次测试,每次都更换不同的验证集。得到n个结果,取平均值作为最终结果。
from sklearn.model_selection import cross_val_score
# sgd_clf是分类器,x_train表示训练实例,y_train_5表示每个训练实例对应的标签,cv=3表示3-折交叉验证,accuracy表示使用准确率作为结果的度量指标
cross_val_score(sgd_clf, x_train, y_train_5, cv=3, scoring="accuracy")
结果
array([0.95035, 0.96035, 0.9604 ])
但是,如果现在我有一个模型,对每张图片都判定为“非5” ,考虑到所有图片中有约10%的图片是5,这种模型训练下来的准确率也能达到90%左右,但是该模型永远正确无法识别“5‘。
这说明准确率通常无法成为分类器的首要性能指标,特别是当你处理有偏数据集时(即某些类比其他类更为频繁)。
②混淆矩阵
评估分类器性能的更好方法是混淆矩阵,其总体思路就是统计A被识别成B的次数。
from sklearn.model_selection import cross_val_predict
from sklearn.metrics import confusion_matrix
# 获取每次预测的结果,cv=3表示3-折交叉验证
y_train_pred = cross_val_predict(sgd_clf, x_train, y_train_5, cv=3)
# 构造混淆矩阵,y_train_5包含目标类别,y_train_pred包含对应的预测类别
confusion_matrix(y_train_5, y_train_pred)
结果
array([[53892, 687],
[ 1891, 3530]])
# 真负类(TN) 假正类(FP)
# 假负类(FN) 真正类(TP)
# 真负类: 53892张“非5”图片被正确识别
# 假正类: 687张“非5”图片被错误地识别为“5”
# 假负类: 1891张“5”图片被错误地识别为“非5”
# 真正类:3530张“5”图片被正确识别
一个完美的分类器,它的副对角线的值都为0
# 我们可以假设我们都识别对了,打印出来看看
y_train_perfect_predictions = y_train_5
confusion_matrix(y_train_5, y_train_perfect_predictions)
# 结果
array([[54579, 0],
[ 0, 5421]])
③精度和召回率
精度 (Precision)=TP/(TP+FP) :你认为的该类样本,有多少猜对了(猜的精确性如何)。
召回率 (Recall)=TP/(TP+FN):该类样本有多少被找出来了(召回了多少)。
F1分数是精度和召回率的谐波平均值,正常的平均值平等对待所有的值,而谐波平均值会给予低值更高的权重。因此,只有当召回率和精度都很高时,分类器才能得到较高的F1分数。
from sklearn.metrics import precision_score, recall_score, f1_score
precision_score(y_train_5, y_train_pred) # 精度,0.8370879772350012
recall_score(y_train_5, y_train_pred) # 召回率,0.6511713705958311
f1_score(y_train_5, y_train_pred) # f1分数
F1分数对那些具有相近的精度和召回率的分类器更为有利。
这不一定能一直符合你的期望:在某些情况下,你关心的是精度,而另一些情况下,你关心的是召回率。 例如,
①假设你训练一个分类器来检测儿童可以放心观看的视频,那么你可能更青睐那种拦截了很多好视频(低召回率),但是保留下来的视频都是安全(高精度)的分类器。
②如果你训练一个分类器通过图像监控来检测小偷:你大概可以接受精度只有30%,但召回率能达到99%(当然,安保人员会收到一些错误的警报,但是几乎所有的窃贼都在劫难逃)。
精度/召回率权衡:关键要调整阈值(SGDClassifier分类器使用的阈值是0。)
怎么理解这幅图:以中间阈值为例,就预测结果而言,右边图片我全部预测为“5”,5个猜对4个,精度:4/5。就整个样本而言,共有6个“5”,我只找到4个“5”,召回率:4/6。
from sklearn.model_selection import cross_val_predict
from sklearn.metrics import precision_recall_curve
import matplotlib.pyplot as plt
import numpy as np
# 使用cross_val_predict函数获取训练集中所有实例的决策分数
y_scores = cross_val_predict(sgd_clf, x_train, y_train_5, cv=3, method="decision_function")
# 使用precision_recall_curve函数来计算所有可能的阈值的精度和召回率
precisions, recalls, thresholds = precision_recall_curve(y_train_5, y_scores)
# 使用Matplotlib绘制精度和召回率相对于阈值的函数图
def plot_precision_recall_vs_threshold(precisions, recalls, thresholds):
plt.plot(thresholds, precisions[:-1], "b--", label="Precision", linewidth=2) # b--的b表示蓝色,--表示虚线,下面的g--同理
plt.plot(thresholds, recalls[:-1], "g-", label="Recall", linewidth=2)
plt.legend(loc="center right", fontsize=16) # 设置图例的位置和大小
plt.xlabel("Threshold", fontsize=16) # x轴标签
plt.grid(True) # 显示网格线
plt.axis([-50000, 50000, 0, 1]) # 设置x轴的范围和y轴的范围
# 假设你决定将精度设为90%
# np.argmax返回数组中最大值的第一个索引,这种情况下,它返回第一个True值
recall_90_precision = recalls[np.argmax(precisions >= 0.90)] # 返回精度90%的召回率
threshold_90_precision = thresholds[np.argmax(precisions >= 0.90)] # 返回精度90%时候的阈值
plt.figure(figsize=(8, 4)) # 创建一个绘图对象,设置宽高
plot_precision_recall_vs_threshold(precisions, recalls, thresholds)
plt.plot([threshold_90_precision, threshold_90_precision], [0., 0.9], "r:") # 点线
plt.plot([-50000, threshold_90_precision], [0.9, 0.9], "r:") # 点线
plt.plot([-50000, threshold_90_precision], [recall_90_precision, recall_90_precision], "r:")# 点线
plt.plot([threshold_90_precision], [0.9], "ro") # 阈值为threshold_90_precision,和精度线的交点
plt.plot([threshold_90_precision], [recall_90_precision], "ro") # 阈值为threshold_90_precision,和召回率线的交点
plt.show()
我们利用threshold_90_precision这个阈值再来看看精度和召回率
y_train_pred_90 = (y_scores >= threshold_90_precision)
precision_score(y_train_5, y_train_pred_90) # 0.9000345901072293
recall_score(y_train_5, y_train_pred_90) # 0.4799852425751706
④ROC曲线
ROC(Receiver Operating Characteristic): 受试者工作特征
该曲线绘制的是灵敏度(Specificity)和 假正类率(FPR)
灵敏度 = 召回率(TPR),假正类率 = 1-特异度(Sensitivity) = 1 - 真负类率(TNR)
召回率: 被正确分为正类的正类实例比率。
假正类率:被错误分为正类的负类实例比率。
真负类率/特异度:被正确分类为负类的负类实例比率。
from sklearn.metrics import roc_curve
# 使用roc_curve函数计算多种阈值的TPR(真正类率)和FPR(假正类率)
fpr, tpr, thresholds = roc_curve(y_train_5, y_scores)
def plot_roc_curve(fpr, tpr, label=None):
plt.plot(fpr, tpr, linewidth=2, label=label)
plt.plot([0, 1], [0, 1], 'k--') # 画对角线,虚线
plt.axis([0, 1, 0, 1]) # 坐标轴范围
plt.xlabel('False Positive Rate (Fall-Out)', fontsize=16) # x轴标签
plt.ylabel('True Positive Rate (Recall)', fontsize=16) # y轴标签
plt.grid(True) # 网格线
plt.figure(figsize=(8, 6)) # 设置图片宽高
plot_roc_curve(fpr, tpr)
fpr_90 = fpr[np.argmax(tpr >= recall_90_precision)] # 精度90%时的召回率对应的假正类率
plt.plot([fpr_90], [recall_90_precision], "ro") # 精度90%时的召回率对应的那个点
plt.plot([fpr_90, fpr_90], [0., recall_90_precision], "r:") # 那个点到x轴的虚线
plt.plot([0.0, fpr_90], [recall_90_precision, recall_90_precision], "r:") # 那个点到y轴的虚线
plt.show()
虚线表示纯随机分类器的ROC曲线、一个优秀的分类器应该离这条线越远越好(向左上角) 。
⑤ROC AUC(Area Under Curve) 曲线下面积
完美的分类器的ROC AUC等于1,而纯随机分类器的ROC AUC等于0.5。
from sklearn.metrics import roc_auc_score
roc_auc_score(y_train_5, y_scores)
⑥ROC曲线与精度/召回率(PR)曲线的抉择
当正类非常少见或者你更关注假正类而不是假负类时,应该选择PR曲线,反之则是ROC曲线。
例如,看前面的ROC曲线图,你可能会觉得分类器真不错。但这主要是因为跟负类(非5)相比,正类(数字5)的数量真的很少。相比之下,PR曲线清楚地说明分类器还有改进的空间(曲线还可以更接近左上角)。
3.多类分类器
二元分类器只能区分两个类,而多类分类器可以区分两个以上的类。
随机森林分类器和朴素贝叶斯分类器可以直接处理多个类。
支持向量机分类器和线性分类器则是严格的二元分类器。
要创建一个系统将数字图片分为10类(从0到9)
①一对剩余(OvR)策略:训练10个二元分类器,每个数字一个(0-检测器、1-检测器、2-检测器,以此类推)。当你需要对一张图片进行检测分类时,获取每个分类器的决策分数,哪个分类器给分最高,就将其分为哪个类。
②一对一(OvO)策略:为每一对数字训练一个二元分类器(一个区分0和1,一个区分0和2,一个区分1和2,以此类推)。如果存在N个类别,那么这需要训练N×(N-1)/2个分类器。
对该问题而言,当需要对一张图片进行分类时,你需要运行45个分类器来对图片进行分类,最后看哪个类获胜最多。
优点:每个分类器只需要用到部分训练集对其必须区分的两个类进行训练。
Scikit-Learn会根据情况自动运行OvR或者OvO。
(1)使用sklearn.svm.SVC类(Support Vector Classification 支持向量机用于分类)
from sklearn.svm import SVC
svm_clf = SVC()
svm_clf.fit(x_train, y_train)
svm_clf.predict([some_digit])
Scikit-Learn实际上训练了45个二元分类器,获得它们对图片的决策分数,然后选择了分数最高的类。
如果想要强制Scikit-Learn使用OvO或者OvR策略,可以使用OneVsOneClassifier或OneVsRestClassifier类。
from sklearn.multiclass import OneVsRestClassifier
ovr_clf = OneVsRestClassifier(SVC(gamma="auto", random_state=42))
ovr_clf.fit(x_train[:1000], y_train[:1000])
ovr_clf.predict([some_digit])
目标类的列表会存储在classes_属性中,在本例里,classes_数组中每个类的索引正好对应其类本身。
svm_clf.classes_
(2)训练SGDClassifier
sgd_clf.fit(x_train, y_train)
sgd_clf.predict([some_digit])
cross_val_score(sgd_clf, x_train, y_train, cv=3, scoring="accuracy") # 交叉验证
优化:归一化
StandardScaler():去均值和方差归一化
归一化:保证每个维度数据方差为1,均值为0,加快了梯度下降求最优解的速度,提高精度
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
x_train_scaled = scaler.fit_transform(x_train.astype(np.float64))
cross_val_score(sgd_clf, x_train_scaled, y_train, cv=3, scoring="accuracy")
4.改进模型---误差分析
首先看看混淆矩阵
y_train_pred = cross_val_predict(sgd_clf, x_train_scaled, y_train, cv=3)
conf_mx = confusion_matrix(y_train, y_train_pred)
plt.matshow(conf_mx, cmap=plt.cm.gray) # 绘制矩阵
plt.show()
大多数图片都在主对角线上,这说明它们被正确分类。
数字5看起来比其他数字稍暗,可能是因为数据集中数字5的图片较少,也可能是因为分类器在数字5上的执行效果不如在其他数字上好。
让我们把焦点放在错误上
row_sums = conf_mx.sum(axis=1, keepdims=True) # axis=1表示以竖轴为基准,一行的数求和,keepdims=True表示保持二维特性
norm_conf_mx = conf_mx / row_sums # 将混淆矩阵中的每个值除以相应类中的图片数量
np.fill_diagonal(norm_conf_mx, 0) # 矩阵正对角线都填充为0,也就是涂得最黑
plt.matshow(norm_conf_mx, cmap=plt.cm.gray) # 绘制矩阵
plt.show()
每行代表实际类,而每列表示预测类。
第8列看起来非常亮,说明有许多图片被错误地分类为数字8了。
然而,第8行不那么差,告诉你实际上数字8被正确分类为数字8。
因此,你的精力可以花在改进数字8的分类错误上。
例如,可以试着收集更多看起来像数字8的训练数据去训练。或者对图片进行预处理(例如Scikit-Image、Pillow或OpenCV)让某些模式更为突出,比如闭环(8有两个,6有一个,5没有)。
5.多标签分类
在某些情况下,你希望分类器为每个实例输出多个类。
例如,人脸识别的分类器:如果在一张照片里识别出多个人,应该为识别出来的每个人都附上一个标签。举个例子,分类器经过训练能够识别三张脸—张三、李四和王五,那么当看它到张三和王五的照片时,它应该输出[1,0,1](“是张三,不是李四,是王五”)
下面看一个实例
from sklearn.neighbors import KNeighborsClassifier
y_train_large = (y_train >= 7) # 打标签:该数字是不是大于7
y_train_odd = (y_train % 2 == 1) # 打标签:该数字是不是奇数
y_multilabel = np.c_[y_train_large, y_train_odd] # np.c_用于拼接两个矩阵
knn_clf = KNeighborsClassifier() # 该分类器支持多标签分类
knn_clf.fit(x_train, y_multilabel) # 训练
knn_clf.predict([some_digit]) # 返回array([[False, True]]),数字5确实不大于7(False),为奇数(True)
评估多标签分类器
测量每个标签的F1分数,简单地计算平均分数
y_train_knn_pred = cross_val_predict(knn_clf, x_train, y_multilabel, cv=3)
f1_score(y_multilabel, y_train_knn_pred, average="macro")
这里假设所有的标签都同等重要,但实际可能不是这样。
一个简单的办法:给每个标签设置一个权重(也就是具有该目标标签的实例的数量)。
为此,只需要在上面的代码中设置average="weighted"即可。
6.多输出分类
多输出分类:多标签分类的泛化,其标签也可以是多类的(比如它可以有两个以上可能的值)
举例:构建一个系统去除图片中的噪声。
这个分类器的输出是多个标签(一个像素点一个标签),每个标签可以有多个值(像素强度范围为0到225)
# 为MNIST图片的像素强度增加噪声(因为原来图片是干净的)
noise = np.random.randint(0, 100, (len(x_train), 784))
x_train_mod = x_train + noise
noise = np.random.randint(0, 100, (len(x_test), 784))
x_test_mod = x_test + noise
# 目标是将图片还原为原始图片,所以标签是原来图片的数据
y_train_mod = x_train
y_test_mod = x_test
训练之前看看训练的目标图片,和对应的标签 (清洗后的图片)
def plot_digit(data):
image = data.reshape(28, 28)
plt.imshow(image, cmap = mpl.cm.binary, interpolation="nearest")
plt.axis("off")
index = 0 # 查看第一张目标图片,和它的标签(清洗后的图片)
plt.subplot(121); plot_digit(x_test_mod[index]) # 1代表行,2代表列,所以一共有2个图,1代表此时绘制第以个图
plt.subplot(122); plot_digit(y_test_mod[index]) # 2代表此时绘制第二个图
plt.show()
knn_clf.fit(x_train_mod, y_train_mod) # 根据训练集进行训练
clean_digit = knn_clf.predict([x_test_mod[index]]) # 对输入的有噪声图片进行处理
plot_digit(clean_digit) # 查看去除噪声的图片