人工智能实战:如何完成支持向量机算法的调参工作(附代码)

liuian 2025-05-02 11:48 57 浏览

专栏推荐

正文

我们已经做出了线性可分以及线性不可分的支持向量机，但是我们不知道究竟什么样的参数C和核函数参数γ更加的适合我们的当前模型，一个好的参数更加有利于我们的模型，所以如何才能选择。这篇文章的目的就是演示如何才能选出我们所要的那个参数，我将使用两种方法。方法一就是手动选出（逐渐遍历的方法），方法二就是使用sklearn封装好的机器学习库来完成方法一的任务。

我现在有一个数据集，它的所有变量是这样的

其中x，y我们把它用作是训练集数据，然后把Xval，yval它当作测试集数据。我们现在先来获取到训练集数据以及测试集数据。

training = pd.DataFrame(mat.get('X'), columns=['X1', 'X2'])
training['y'] = mat.get('y')
cv = pd.DataFrame(mat.get('Xval'), columns=['X1', 'X2'])
cv['y'] = mat.get('yval')

我们现在已经获取到了训练集training和测试集cv。

现在我们要获取到C和γ的各种组合，用各种组合去不断地尝试究竟哪一种地组合更好。那么我们先来完成对这二者进行组合。

candidate = [0.01, 0.03, 0.1, 0.3, 1, 3, 10, 30, 100]

这是我们的可能地取值，然后我们对其进行两两地组合

combination = [(C, gamma) for C in candidate for gamma in candidate]

我们输出combination为：

两两之间任意地组合，那么一共有81中组合，这就是我们要从中间选出究竟哪一种组合才是最好地那个。

下面我们对这些组合进行遍历，然后用每一组进行拟合一个svm的训练器，拟合之后我们使用测试集进行测试，把每一个测试的精确度保存起来，这样我们就可以根据精确度最高的那个来选出我们所想要的最好的那个组合了。

search = []

for C, gamma in combination:

 svc = svm.SVC(C=C, gamma=gamma)

 svc.fit(training[['X1', 'X2']], training['y'])

 search.append(svc.score(cv[['X1', 'X2']], cv['y']))

有了每一个组合的对测试集的精确度的结果之后，我们只需要找出精确度最好的那一个组合，就是我们所要的那个组合。

best_score = search[np.argmax(search)]

best_param = combination[np.argmax(search)]
np.argmax(search)

输出精确度最大的那个的小标。同时这个下标也是search和combination对应的下标。那么这个就是我们所要找的best_score（最好的组合的精确度）以及最好的组合（best_param）。

print(best_score)

print(best_param)

输出二者的结果分别为：

0.965

(0.3, 100)

可以知道当我们的C=0.3，而γ=100的时候可能是最好的，我们要确定此时的参数组合形成的模型的分类指标

from sklearn import metrics

best_svc = svm.SVC(C=0.3, gamma=100)

best_svc.fit(training[['X1', 'X2']], training['y'])

ypred = best_svc.predict(cv[['X1', 'X2']])

print(metrics.classification_report(cv['y'], ypred))

我们现在是我们当前参数组合中最好的模型了，那么我们使用
metrics.classification_report用于显示主要分类指标的文本报告．在报告中显示每个类的精确度，召回率，F1值等信息。

该方法的主要参数是:
y_true：1维数组，或标签指示器数组/稀疏矩阵，目标值。
y_pred：1维数组，或标签指示器数组/稀疏矩阵，分类器返回的估计值。
labels：array，shape = [n_labels]，报表中包含的标签索引的可选列表。
target_names：字符串列表，与标签匹配的可选显示名称（相同顺序）。
sample_weight：类似于shape = [n_samples]的数组，可选项，样本权重。
digits：int，输出浮点值的位数．

输出的结果为：

其中列表左边的一列为分类的标签名，右边support列为每个标签的出现次数．avg / total行为各列的均值（support列为总和）

precision recall f1-score三列分别为各个类别的精确度/召回率及 F1值．

这样我们使用的是for循环的方式找到了最好的模型，其实我们本可以不这样，因为我们可以使用sklearn库使用封装好的交叉验证的程序来完成这个操作。

if __name__ == "__main__":

 parameters = {'C': candidate, 'gamma': candidate}

 svc = svm.SVC()

 clf = GridSearchCV(svc, parameters, n_jobs=-1)

 clf.fit(training[['X1', 'X2']], training['y'])

 print (clf.best_params_)

 print (clf.best_score_)

 ypred = clf.predict(cv[['X1', 'X2']])

 print(metrics.classification_report(cv['y'], ypred))

因为交叉验证是使用的多线程所以我们使用一个main方法来把它给套起来，然后他就会组合多种parameters进行遍历选出最好的那个

全部代码：

from sklearn import svm
from sklearn.model_selection import GridSearchCV
from sklearn import metrics
import numpy as np
import pandas as pd
import scipy.io as sio
mat = sio.loadmat('ex6data3.mat')
print(mat.keys())
training = pd.DataFrame(mat.get('X'), columns=['X1', 'X2'])
training['y'] = mat.get('y')
cv = pd.DataFrame(mat.get('Xval'), columns=['X1', 'X2'])
cv['y'] = mat.get('yval')
candidate = [0.01, 0.03, 0.1, 0.3, 1, 3, 10, 30, 100]
combination = [(C, gamma) for C in candidate for gamma in candidate]
search = []
for C, gamma in combination:
svc = svm.SVC(C=C, gamma=gamma)
svc.fit(training[['X1', 'X2']], training['y'])
search.append(svc.score(cv[['X1', 'X2']], cv['y']))
best_score = search[np.argmax(search)]
best_param = combination[np.argmax(search)]
best_svc = svm.SVC(C=0.3, gamma=100)
best_svc.fit(training[['X1', 'X2']], training['y'])
ypred = best_svc.predict(cv[['X1', 'X2']])
print(metrics.classification_report(cv['y'], ypred))
if __name__ == "__main__":
parameters = {'C': candidate, 'gamma': candidate}
svc = svm.SVC()
clf = GridSearchCV(svc, parameters, n_jobs=-1)
clf.fit(training[['X1', 'X2']], training['y'])
print (clf.best_params_)
print (clf.best_score_)
ypred = clf.predict(cv[['X1', 'X2']])
print(metrics.classification_report(cv['y'], ypred))