百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT知识 > 正文

如何Keras自动编码器给极端罕见事件分类

liuian 2025-04-09 17:53 84 浏览

全文共7940字,预计学习时长30分钟或更长


来源:Pexels



本文将以一家造纸厂的生产为例,介绍如何使用自动编码器构建罕见事件分类器。

现实生活中罕见事件的数据集:



背景


1. 什么是极端罕见事件?

在罕见事件问题中,数据集是不平衡的。也就是说,正样本比负样本数量少。典型罕见事件问题的正样本数约占总数的5-10%。而在极端罕见的事件问题中,正样本数据只有不到1%。例如,本文使用的数据集里,这一比例只有约0.6%。

这种极端罕见的事件问题在现实世界中非常常见,例如,工厂中的机器故障或在网上点击购买时页面失踪。

对这些罕见事件进行分类非常有挑战性。近来,深度学习被广泛应用于分类中。然而正样本数太少不利于深度学习的应用。不论数据总量多大,深度学习的使用都会受制于阳性数据的数量。

2. 为什么要使用深度学习?

这个问题很合理。为什么不考虑使用其他机器学习方法呢?

答案很主观。我们总是可以采用某种机器学习方法来达到目的。为了使其成功,可以对负样本数据进行欠采样,以获得接近更平衡的数据集。由于只有0.6%的正样本数据,欠采样将会导致数据集大小约为原始数据集的1%。机器学习方法如SVM或Random Forest仍然适用于这种大小的数据集。然而,其准确性将受到限制。剩下约99%的数据中的信息将无法使用。

如果数据足够的话,深度学习或许更有效。它还能通过使用不同的体系结构实现模型改进的灵活性。因此,我们选择尝试使用深度学习的方法。

在本文中,我们将学习如何使用一个简单的全连接层自动编码器来构建罕见事件分类器。本文是为了演示如何使用自动编码器来实现极端罕见事件分类器的构建。用户可以自行探索自动编码器的不同架构和配置。


用自动编码器进行分类


用自动编码器分类类似于异常检测。在异常检测中,先学习正常过程的模式。任何不遵循此模式的都被归类为异常。对于罕见事件的二进制分类,可以采用类似的方法使用自动编码器。

1. 什么是自动编码器?

· 自动编码器由编码器和解码器两个模块组成。

· 编码器学习某一进程的隐含特性。这些特性通常在一个降低的维度中。

· 解码器可以根据这些隐含特性重新创建原始数据。


图1解释自动编码器[资料来源: iSystems Design实验室SeungchulLee教授]



2. 如何使用自动编码器构建罕见事件分类?

· 将数据分为正标记和负标记两部分。

· 负标记的数据视为正常状态——无事件。

· 忽略正标记的数据,用负标记数据训练自动编码器。

· 所以重构误差的概率就很小。

· 然而,如果试图从稀有事件中重构数据,自动编码器就很难工作。

· 这就会造成在罕见事件中发生重构误差的概率比较高。

· 如此高的重构误差,并将其标记为罕见事件预测。

· 此过程与异常检测方法类似。


实际应用


1. 数据和问题


这是来自一家造纸厂关于纸张破损的二进制标记数据。纸张破损在造纸业是个很严重的问题。一起纸张破损就会造成数千美元损失,而造纸厂每天都会有数几起破损。这导致每年数百万美元的损失和工作风险。

因为生产过程本身的性质,很难检测到纸张破损。破损概率降低5%都能给厂家带来巨大的利益。

我们的数据包含15天内收集的约18,000行数据。y列包含两类标签,1表示纸张破损。其余列是预测,正标记样本约124例(约0.6%)。


2. 编码

导入所需的库。

%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
import numpy as np
from pylab import rcParams
import tensorflow as tf
from keras.models import Model, load_model
from keras.layers import Input, Dense
from keras.callbacks import ModelCheckpoint, TensorBoard
from keras import regularizers
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix, precision_recall_curve
from sklearn.metrics import recall_score, classification_report, auc, roc_curve
from sklearn.metrics import precision_recall_fscore_support, f1_score
from numpy.random import seed
seed(1)
from tensorflow import set_random_seed
set_random_seed(2)
SEED = 123 #used to help randomly select the data points
DATA_SPLIT_PCT = 0.2
rcParams['figure.figsize'] = 8, 6
LABELS = ["Normal","Break"]

注意,我们正在为可重现结果设置随机种子。

3. 数据处理

现在,读取并准备数据。

df = pd.read_csv("
data/processminer-rare-event-mts - data.csv")这个罕见事件问题的目标就是在纸张破损发生之前就及时做出预测。我们试着在破损发生前四分钟就要预测到。为了建立这个模型,把标签向上移动两行(相当于4分钟)。只要df.y=df.y.shift(-2)就行了。然而针对这个问题,需要做出如下改变:如果第n行是阳性的,

· 令行(n-2)和(n-1)等于1。这将帮助分类器学会提前最多4分钟预测。

· 删除第n行。因为分类器不需要学会在事件发生时做出预测。

为了这个复杂的变化需要用下面的UDF。

sign = lambda x: (1, -1)[x < 0 def curve_shiftdf shift_by: this function will shift the binary labels in a dataframe. the curve shift will be with respect to the 1s. for example if shift is -2 the following process will happen: if row n is labeled as 1 then - make row nshift_by:nshift_by-1='1.' - remove row n. i.e. the labels will be shifted up to 2 rows up. inputs: df a pandas dataframe with a binary labeled column. this labeled column should be named as y. shift_by an integer denoting the number of rows to shift. output df a dataframe with the binary labels shifted by shift. vector='df['y'].copy()' for s in rangeabsshift_by: tmp='vector.shift(sign(shift_by))' tmp='tmp.fillna(0)' vector labelcol='y' add vector to the df df.insertloc='0,' column='labelcol+'tmp',' value='vector)' remove the rows with labelcol='= 1.' df='df.drop(df[df[labelcol]' drop labelcol and rename the tmp col as labelcol df='df.drop(labelcol,' axis='1)' df='df.rename(columns={labelcol+'tmp':' labelcol make the labelcol binary df.locdflabelcol> 0, labelcol] = 1
return df


现在,将数据分为训练集、有效集和测试集。然后迅速使用只有0的数据子集来训练自动编码器。

df_train, df_test = train_test_split(df, test_size=DATA_SPLIT_PCT, random_state=SEED)
df_train, df_valid = train_test_split(df_train, 
test_size=DATA_SPLIT_PCT, random_state=SEED)
df_train_0 = df_train.loc[df['y'] == 0]
df_train_1 = df_train.loc[df['y'] == 1]
df_train_0_x = df_train_0.drop(['y'], axis=1)
df_train_1_x = df_train_1.drop(['y'], axis=1)


4. 标准化

自动编码器最好使用标准化数据(转换为Gaussian、均值0、方差1)。

scaler = StandardScaler().fit(df_train_0_x)
df_train_0_x_rescaled = scaler.transform(df_train_0_x)
df_valid_0_x_rescaled = scaler.transform(df_valid_0_x)
df_valid_x_rescaled = scaler.transform(df_valid.drop(['y'], axis = 1))
df_test_0_x_rescaled = scaler.transform(df_test_0_x)
df_test_x_rescaled = scaler.transform(df_test.drop(['y'], axis = 1))


由自动编码器构造的分类器

1. 初始化

首先,初始化自动编码器架构。先构建一个简单的自动编码器,稍后再探索更复杂的架构和配置。


nb_epoch = 100
batch_size = 128
input_dim = df_train_0_x_rescaled.shape[1] #num of predictor variables, 
encoding_dim = 32
hidden_dim = int(encoding_dim / 2)
learning_rate = 1e-3
input_layer = Input(shape=(input_dim, ))
encoder = Dense(encoding_dim, activation="tanh", 
activity_regularizer=regularizers.l1(learning_rate))(input_layer)
encoder = Dense(hidden_dim, activation="relu")(encoder)
decoder = Dense(hidden_dim, activation='tanh')(encoder)
decoder = Dense(input_dim, activation='relu')(decoder)
autoencoder = Model(inputs=input_layer, outputs=decoder)

2. 训练

训练模型并将其保存在文件中。保存训练过的模型会为将来的分析省很多时间。

autoencoder.compile(metrics=['accuracy'],
 loss='mean_squared_error',
 optimizer='adam')
cp = ModelCheckpoint(filepath="autoencoder_classifier.h5",
 save_best_only=True,
 verbose=0)
tb = TensorBoard(log_dir='./logs',
 histogram_freq=0,
 write_graph=True,
 write_images=True)
history=autoencoder.fit(df_train_0_x_rescaled,df_train_0_x_rescaled,
 epochs=nb_epoch,
 batch_size=batch_size,
 shuffle=True,
 validation_data=(df_valid_0_x_rescaled,
df_valid_0_x_rescaled),
 verbose=1,
 callbacks=[cp, tb]).history

图2:自动编码器的损失曲线

3. 分类

接下来将展示如何利用自动编码器重构误差来构造罕见事件分类器。

如前所述,如果重构误差较大,将其归类为纸张破损。需要确定这个阈值。

使用验证集来确定阈值。

valid_x_predictions = autoencoder.predict(df_valid_x_rescaled)
mse = np.mean(np.power(df_valid_x_rescaled - valid_x_predictions, 2), axis=1)
error_df = pd.DataFrame({'Reconstruction_error': mse, 'True_class': df_valid['y']})
precision_rt, recall_rt, threshold_rt = precision_recall_curve(error_df.True_class, 
error_df.Reconstruction_error)
plt.plot(threshold_rt, precision_rt[1:], label="Precision",linewidth=5)
plt.plot(threshold_rt, recall_rt[1:], label="Recall",linewidth=5)
plt.title('Precision and recall for different threshold values')
plt.xlabel('Threshold')
plt.ylabel('Precision/Recall')
plt.legend()
plt.show()

图3:阈值为0.85可以在精确度和召回率之间有合理权衡。

现在,对测试数据进行分类。

不要根据测试数据来估计分类阈值,这会导致过度拟合。

test_x_predictions = autoencoder.predict(df_test_x_rescaled)
mse = np.mean(np.power(df_test_x_rescaled - test_x_predictions, 2), axis=1)
error_df_test = pd.DataFrame({'Reconstruction_error': mse, 'True_class': df_test['y']})error_df_test = error_df_test.reset_index()
threshold_fixed = 0.85
groups = error_df_test.groupby('True_class')
fig, ax = plt.subplots()
for name, group in groups:
 ax.plot(group.index, group.Reconstruction_error, marker='o', ms=3.5, linestyle='',
 label= "Break" if name == 1 else "Normal")
ax.hlines(threshold_fixed, ax.get_xlim()[0], ax.get_xlim()[1], colors="r", zorder=100, label='Threshold')
ax.legend()
plt.title("Reconstruction error for different classes")
plt.ylabel("Reconstruction error")
plt.xlabel("Data point index")
plt.show();

图4:使用阈值= 0.85进行分类。阈值线上方的橙色和蓝色圆点分别表示真阳性和假阳性。

图4中,阈值线上方的橙色和蓝色圆点分别表示真阳性和假阳性。可以看到上面有很多假阳性的点。为了看得更清楚,可以看一个混淆矩阵。

pred_y = [1 if e > threshold_fixed else 0 for e in error_df.Reconstruction_error.values]
conf_matrix = confusion_matrix(error_df.True_class, pred_y)
plt.figure(figsize=(12, 12))
sns.heatmap(conf_matrix, xticklabels=LABELS, yticklabels=LABELS, annot=True, fmt="d");
plt.title("Confusion matrix")
plt.ylabel('True class')
plt.xlabel('Predicted class')
plt.show()

图5:测试预测的混淆矩阵

在32次的破损中,我们预测到了9次。注意,其中包括提前两或四分钟的预测。这一概率约为28%,对造纸业来说是一个不错的召回率。假阳性率约为6.3%。这对造纸厂来说不是最好的结果,但也不坏。

该模型还可以进一步改进,降低假阳性率以提高召回率。观察如下AUC值后探讨改进方法。

ROC曲线和AUC(Area Under Curve)

false_pos_rate, true_pos_rate, thresholds = roc_curve(error_df.True_class, error_df.Reconstruction_error)roc_auc = auc(false_pos_rate, true_pos_rate,)
plt.plot(false_pos_rate, true_pos_rate, linewidth=5, label='AUC = %0.3f'% roc_auc)plt.plot([0,1],[0,1], linewidth=5)
plt.xlim([-0.01, 1])
plt.ylim([0, 1.01])
plt.legend(loc='lower right')
plt.title('Receiver operating characteristic curve (ROC)')
plt.ylabel('True Positive Rate')
plt.xlabel('False Positive Rate')
plt.show()

AUC值为0.624。

值得注意的是,这是一个(多变量的)时间序列数据。我们并未考虑数据中的时间信息/模式。

留言 点赞 关注

我们一起分享AI学习与发展的干货

欢迎关注全平台AI垂类自媒体 “读芯术”

相关推荐

驱动网卡(怎么从新驱动网卡)
驱动网卡(怎么从新驱动网卡)

网卡一般是指为电脑主机提供有线无线网络功能的适配器。而网卡驱动指的就是电脑连接识别这些网卡型号的桥梁。网卡只有打上了网卡驱动才能正常使用。并不是说所有的网卡一插到电脑上面就能进行数据传输了,他都需要里面芯片组的驱动文件才能支持他进行数据传输...

2026-01-30 00:37 liuian

win10更新助手装系统(微软win10更新助手)

1、点击首页“系统升级”的按钮,给出弹框,告诉用户需要上传IMEI码才能使用升级服务。同时给出同意和取消按钮。华为手机助手2、点击同意,则进入到“系统升级”功能华为手机助手华为手机助手3、在检测界面,...

windows11专业版密钥最新(windows11专业版激活码永久)

 Windows11专业版的正版密钥,我们是对windows的激活所必备的工具。该密钥我们可以通过微软商城或者通过计算机的硬件供应商去购买获得。获得了windows11专业版的正版密钥后,我...

手机删过的软件恢复(手机删除过的软件怎么恢复)
手机删过的软件恢复(手机删除过的软件怎么恢复)

操作步骤:1、首先,我们需要先打开手机。然后在许多图标中找到带有[文件管理]文本的图标,然后单击“文件管理”进入页面。2、进入页面后,我们将在顶部看到一行文本:手机,最新信息,文档,视频,图片,音乐,收藏,最后是我们正在寻找的[更多],单击...

2026-01-29 23:55 liuian

一键ghost手动备份系统步骤(一键ghost 备份)

  步骤1、首先把装有一键GHOST装系统的U盘插在电脑上,然后打开电脑马上按F2或DEL键入BIOS界面,然后就选择BOOT打USDHDD模式选择好,然后按F10键保存,电脑就会马上重启。  步骤...

怎么创建局域网(怎么创建局域网打游戏)

  1、购买路由器一台。进入路由器把dhcp功能打开  2、购买一台交换机。从路由器lan端口拉出一条网线查到交换机的任意一个端口上。  3、两台以上电脑。从交换机任意端口拉出网线插到电脑上(电脑设置...

精灵驱动器官方下载(精灵驱动手机版下载)

是的。驱动精灵是一款集驱动管理和硬件检测于一体的、专业级的驱动管理和维护工具。驱动精灵为用户提供驱动备份、恢复、安装、删除、在线更新等实用功能。1、全新驱动精灵2012引擎,大幅提升硬件和驱动辨识能力...

一键还原系统步骤(一键还原系统有哪些)

1、首先需要下载安装一下Windows一键还原程序,在安装程序窗口中,点击“下一步”,弹出“用户许可协议”窗口,选择“我同意该许可协议的条款”,并点击“下一步”。  2、在弹出的“准备安装”窗口中,可...

电脑加速器哪个好(电脑加速器哪款好)

我认为pp加速器最好用,飞速土豆太懒,急速酷六根本不工作。pp加速器什么网页都加速,太任劳任怨了!以上是个人观点,具体性能请自己试。ps:我家电脑性能很好。迅游加速盒子是可以加速电脑的。因为有过之...

任何u盘都可以做启动盘吗(u盘必须做成启动盘才能装系统吗)

是的,需要注意,U盘的大小要在4G以上,最好是8G以上,因为启动盘里面需要装系统,内存小的话,不能用来安装系统。内存卡或者U盘或者移动硬盘都可以用来做启动盘安装系统。普通的U盘就可以,不过最好U盘...

u盘怎么恢复文件(u盘文件恢复的方法)

开360安全卫士,点击上面的“功能大全”。点击文件恢复然后点击“数据”下的“文件恢复”功能。选择驱动接着选择需要恢复的驱动,选择接入的U盘。点击开始扫描选好就点击中间的“开始扫描”,开始扫描U盘数据。...

系统虚拟内存太低怎么办(系统虚拟内存占用过高什么原因)

1.检查系统虚拟内存使用情况,如果发现有大量的空闲内存,可以尝试释放一些不必要的进程,以释放内存空间。2.如果系统虚拟内存使用率较高,可以尝试增加系统虚拟内存的大小,以便更多的应用程序可以使用更多...

剪贴板权限设置方法(剪贴板访问权限)
剪贴板权限设置方法(剪贴板访问权限)

1、首先打开iphone手机,触碰并按住单词或图像直到显示选择选项。2、其次,然后选取“拷贝”或“剪贴板”。3、勾选需要的“权限”,最后选择开启,即可完成苹果剪贴板权限设置。仅参考1.打开苹果手机设置按钮,点击【通用】。2.点击【键盘】,再...

2026-01-29 21:37 liuian

平板系统重装大师(平板重装win系统)

如果你的平板开不了机,但可以连接上电脑,那就能好办,楼主下载安装个平板刷机王到你的个人电脑上,然后连接你的平板,平板刷机王会自动识别你的平板,平板刷机王上有你平板的我刷机包,楼主点击下载一个,下载完成...

联想官网售后服务网点(联想官网售后服务热线)

联想3c服务中心是联想旗下的官方售后,是基于互联网O2O模式开发的全新服务平台。可以为终端用户提供多品牌手机、电脑以及其他3C类产品的维修、保养和保险服务。根据客户需求层次,联想服务针对个人及家庭客户...