マイコン君　Ｅ資格の勉強メモ

（第１３回）畳み込みニューラルネットワーク

ＭＮＩＳＴでは全結合の学習を行っていましたが、２８ｘ２８を１列に変換しているため、行列の関係性が反映されません。画像の場合は、縦横の関係性も重要になるので、畳み込みニューラルネットワークを実装した方が画像解析が有利であることが容易に想像できます。

＜畳み込み演算＞

畳み込み演算について調べます。
簡単に書くと、フィルターのサイズで入力層の積を演算して出力する方法で積和演算と呼ぶそうです。

今回はエクセルでマクロを作成して、入力、フィルタ、出力、パディング、ストライドなどを変更して、確認します。

以下のファイルをダウンロードしてマクロを有効にすると確認できます。
CNN_Macro.xlsm
入力、出力、パディング、ストライドを任意の数値にするとランダムデータを入力に展開して、計算された結果が出力されます。（マクロは[ctrl+m]で実行されます。
この他にプーリング演算という物があって、決まった領域で、集約します。２Ｘ２、３ｘ３、４Ｘ４のサイズを集約する場合、ストライド２、３、４、でプーリングするという設定になり、出力が１個のデータに集約できます。また、Ｍａｘプーリングが主に使われていますが、Ａｖｅｒａｇｅプーリングも利用することもあります。

＜ＣＮＮ＋ＭＮＩＳＴ＞

いままでは２８ｘ２８＝７８４の一列のデータで機械学習を行いました。しかし、画像は２８ｘ２８で形成されているので、上下の関係性が薄くなってしまっていました。ＣＮＮを使って機械学習を行う事で、精度の良いモデルができます。
すこし時間がかかりますが、以下のプログラムを実行して、学習をさせると、「params.pkl」というファイルが作られます。これがＣＮＮで学習したモデルになります。学習前後のモデルの画像や実際に手書きのファイルで認識をさせてみます。
MyProgram_CNN.zip
上のＺＩＰを解凍して、その中にＭＮＩＳＴの展開済みの「mnist.pkl」も同じフォルダに保存します。

# coding: utf-8
import sys, os
sys.path.append(os.pardir)  # 親ディレクトリのファイルをインポートするための設定
import numpy as np
import matplotlib.pyplot as plt
from mnist import load_mnist
from simple_convnet import SimpleConvNet
from trainer import Trainer

# データの読み込み
(x_train, t_train), (x_test, t_test) = load_mnist(flatten=False)

# 処理に時間のかかる場合はデータを削減 
#x_train, t_train = x_train[:5000], t_train[:5000]
#x_test, t_test = x_test[:1000], t_test[:1000]

max_epochs = 20

network = SimpleConvNet(input_dim=(1,28,28), 
                        conv_param = {'filter_num': 30, 'filter_size': 5, 'pad': 0, 'stride': 1},
                        hidden_size=100, output_size=10, weight_init_std=0.01)
                        
trainer = Trainer(network, x_train, t_train, x_test, t_test,
                  epochs=max_epochs, mini_batch_size=100,
                  optimizer='Adam', optimizer_param={'lr': 0.001},
                  evaluate_sample_num_per_epoch=1000)
trainer.train()

# パラメータの保存
network.save_params("params.pkl")
print("Saved Network Parameters!")

# グラフの描画
markers = {'train': 'o', 'test': 's'}
x = np.arange(max_epochs)
plt.plot(x, trainer.train_acc_list, marker='o', label='train', markevery=2)
plt.plot(x, trainer.test_acc_list, marker='s', label='test', markevery=2)
plt.xlabel("epochs")
plt.ylabel("accuracy")
plt.ylim(0, 1.0)
plt.legend(loc='lower right')
plt.show()

実行すると学習が始まりますが、１～２時間程度時間がかかります。時間を短縮したい場合は、データの量を削減すれば、短くなります。

学習が完了したら、手書きファイルを１０個用意して「test_〇.png」で保存しておきます。以下のプログラムを実行して、作成したモデルの情報を確認します。

# coding: utf-8
import numpy as np
import matplotlib.pyplot as plt
from simple_convnet import SimpleConvNet
from PIL import Image
import pickle

def filter_show(filters, nx=8, margin=3, scale=10):
    """
    c.f. https://gist.github.com/aidiary/07d530d5e08011832b12#file-draw_weight-py
    """
    FN, C, FH, FW = filters.shape
    ny = int(np.ceil(FN / nx))

    fig = plt.figure()
    fig.subplots_adjust(left=0, right=1, bottom=0, top=1, hspace=0.05, wspace=0.05)

    for i in range(FN):
        ax = fig.add_subplot(ny, nx, i+1, xticks=[], yticks=[])
        ax.imshow(filters[i, 0], cmap=plt.cm.gray_r, interpolation='nearest')
    plt.show()


network = SimpleConvNet()
# ランダム初期化後の重み
filter_show(network.params['W1'])

# 学習後の重み
network.load_params("params.pkl")
filter_show(network.params['W1'])

for MyPicNo in range(10):
    plt.subplot(2, 5, MyPicNo+1)
    
    #自分で書いた文字を表示
    myimg = Image.open('test_' + str(MyPicNo) + '.png').convert('L')
    myimg.thumbnail((28, 28)) # 28*28に変換
    myimg = np.array(myimg) # numpy arrayに変換
    plt.imshow(myimg)
    

    #自分で書いた文字を判定
    myimg_array=np.array(myimg.flatten())
    myimg_array=myimg_array/255
    myimg_array=myimg_array.reshape(1,1,28,28)#CNNの入力

    y = network.predict(myimg_array)

    print(y)
    p=np.argmax(y)
    print(p)
    p=np.max(y)
    print(p)
    plt.title('Ans:'+str(np.argmax(y))+ '_' +'{:.4f}'.format(np.max(y)))
plt.show()

まずは、学習前後のフィルター（Ｗ１）の画像を確認します。５ｘ５の３０枚の畳み込み演算のフィルターになっています。学習前はどれもランダムのような形状ですが、学習後は規則性があり、学習されたような印象があります。

次に、手書きのファイルの認識を確認します。書いた文字と認識した回答があってることがわかります。またその時の最大値も表示しています。

－－－－－－－－－－－－－

（第１３回）畳み込みニューラルネットワーク

＜畳み込み演算＞

＜ＣＮＮ＋ＭＮＩＳＴ＞

機械学習のメモ

メニュー