APP下载

使用Keras搭建卷积神经网络进行手写识别的入门(包含程式码解读)

消息来源:baojiabao.com 作者: 发布时间:2024-05-15

报价宝综合消息使用Keras搭建卷积神经网络进行手写识别的入门(包含程式码解读)

本文是发在Medium上的一篇部落格:《Handwritten Equation Solver using Convolutional Neural Network》。本文是原文的翻译。这篇文章主要教大家如何使用keras训练手写字元的识别,并储存训练好的模型到本地,以及未来如何呼叫储存到模型来预测。本文对一些不太明确的地方做了一点小注释。论文使用了cv2的包做预处理,并使用keras搭建了卷积网络。

主要目录如下

介绍获取训练资料1.下载资料集2.抽取特征使用卷积神经网络训练资料1.构建卷积神经网络2.将模型拟合到资料测试模型介绍

随着技术的进步,机器学习和深度学习在当今时代起著至关重要的作用。现在,机器学习和深度学习技术正被用于手写识别,机器人技术,人工智能以及更多领域。开发此类系统需要使用资料训练我们的机器,使其能够学习并进行必要的预测。本文介绍了一种手写方程求解器,通过手写数字和数学符号训练,使用卷积神经网络和一些影象处理技术,实现98.46%的精度。

获取训练资料

1.下载资料集

我们可以从这个连结下载资料集。解压缩zip档案。不同的资料夹包含不同数学符号的影象。为简单起见,我们在本次学习中仅仅使用0-9数字影象,以及“+”、“-”和“×”三个符号影象。在观察我们的资料集时,我们可以看到它对某些数字/符号有偏差,因为某些符号包含了12000个影象,但是其他符号只包含了3000个影象。要消除此偏差,请将每个资料夹中的影象数量减少到约 4000左右。

2.抽取特征

我们可以使用轮廓提取(contour extraction)技术来获得特征(注意,这里作者并没有明确说明轮廓提取的方法,其实源代码中主要使用cv2的包来获取图片的轮廓)。主要步骤包括:

反转影象然后将其转换为二进位制影象,因为当物件为白色且周围为黑色时,轮廓提取会产生最佳结果。要查询轮廓,请使用“findContour”功能。对于特征,我们使用’boundingRect’函式获得轮廓的边界矩形(边界矩形是包围整个轮廓的最小水平矩形)。由于资料集中的每个影象只包含一个符号/数字,因此我们只需要最大尺寸的边界矩形。为此,我们计算每个轮廓的边界矩形的面积,并选择具有最大面积的矩形。现在,将最大区域边界矩形的大小调整为28乘以28,然后压平,变成784乘以1。因此,现在将有784画素值或特征。现在,给它相应的标签(例如,对于0-9影象与其数字相同的标签,对于 - 指定标签10,对于+指定标签11,“×”指定标签12)。所以现在我们的资料集包含784个特征列和一个标签列。提取特征后,将资料储存为CSV档案。原文没有任何程式码,我从他的Github上找到了相关程式码,供大家参考。主要程式码包括:

def load_images_from_folder(folder):

train_data=[]

for filename in os.listdir(folder):

img = cv2.imread(os.path.join(folder,filename),cv2.IMREAD_GRAYSCALE)

img=~img

if img is not None:

# 这个方法主要是画素高于阈值时,给画素赋予新值,否则,赋予另外一种颜色,这个操作是为了让轮廓提取效果更好

ret,thresh=cv2.threshold(img,127,255,cv2.THRESH_BINARY)

# 这个方法就是提取轮廓

ret,ctrs,ret=cv2.findContours(thresh,cv2.RETR_EXTERNAL,cv2.CHAIN_APPROX_NONE)

cnt=sorted(ctrs, key=lambda ctr: cv2.boundingRect(ctr)[0])

w=int(28)

h=int(28)

maxi=0

for c in cnt:

x,y,w,h=cv2.boundingRect(c)

maxi=max(w*h,maxi)

if maxi==w*h:

x_max=x

y_max=y

w_max=w

h_max=h

im_crop= thresh[y_max:y_max+h_max+10, x_max:x_max+w_max+10]

im_resize = cv2.resize(im_crop,(28,28))

im_resize=np.reshape(im_resize,(784,1))

train_data.append(im_resize)

return train_data

使用卷积神经网络训练资料

由于卷积神经网络在二维资料上工作,我们的资料集是785乘1的形式。因此,我们需要重塑它。 首先,将资料集中的标签列分配给变数y_train。 然后从资料集中删除标签列,然后将资料集重新变成28乘28.现在,我们的资料集已准备好用于CNN。

1.构建卷积神经网络

要制作CNN,请汇入所有必需的库。

import pandas as pd

import numpy as np

import pickle

np.random.seed(1212)

import keras

from keras.models import Model

from keras.layers import *

from keras import optimizers

from keras.layers import Input, Dense

from keras.models import Sequential

from keras.layers import Dense

from keras.layers import Dropout

from keras.layers import Flatten

from keras.layers.convolutional import Conv2D

from keras.layers.convolutional import MaxPooling2D

from keras.utils import np_utils

from keras import backend as K

K.set_image_dim_ordering('th')

from keras.utils.np_utils import to_categorical

from keras.models import model_from_json

使用“to_categorical”函式将y_train资料转换为分类资料。建立模型的程式码如下:

model = Sequential()

model.add(Conv2D(30, (5, 5), input_shape=(1 , 28, 28), activation='relu'))

model.add(MaxPooling2D(pool_size=(2, 2)))

model.add(Conv2D(15, (3, 3), activation='relu'))

model.add(MaxPooling2D(pool_size=(2, 2)))

model.add(Dropout(0.2))

model.add(Flatten())

model.add(Dense(128, activation='relu'))

model.add(Dense(50, activation='relu'))

model.add(Dense(13, activation='softmax'))

# Compile model

model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

2.将模型拟合到资料

要使CNN拟合数据,请使用以下程式码行。

model.fit(np.array(l), cat, epochs=10, batch_size=200,shuffle=True,verbose=1)

训练我们的模型需要大约三个小时,准确率为98.46%。 经过训练,我们可以将我们的模型储存为json档案以备将来使用,这样我们就不必训练模型并每次等待三个小时。 为了储存我们的模型,我们可以使用以下程式码行。

model_json = model.to_json()

with open("model_final.json", "w") as json_file:

json_file.write(model_json)

# serialize weights to HDF5

model.save_weights("model_final.h5")

测试模型

首先,我们使用以下程式码行汇入您储存的模型。

json_file = open('model_final.json', 'r')

loaded_model_json = json_file.read()

json_file.close()

loaded_model = model_from_json(loaded_model_json)

# load weights into new model

loaded_model.load_weights("model_final.h5")

现在,输入包含手写数字的影象。 将影象转换为二进位制影象,然后反转影象(如果数字/符号为黑色)。现在预设获取影象的轮廓,它将从左到右获得轮廓。获取每个轮廓的边界矩形。有时,我们可能会获得相同数字/符号的两个或更多轮廓。 为避免这种情况,我们可以检查这两个轮廓的边界矩形是否重叠。 如果它们重叠,则丢弃较小的矩形。现在,将所有剩余的边界矩形调整为28乘28。使用我们的模型,预测每个边界矩形的相应数字/符号并将其储存在字串中。之后,在字串上使用’eval’函式来求解方程。

完整程式码资源参考:https://github.com/vipul79321/Handwritten-Equation-Solver

2019-10-18 00:53:00

相关文章