マイコン君　Ｅ資格の勉強メモ

（第１２回）ハイパーパラメーター最適化

重みやバイアス以外のパラメーターである学習率やWeighDecayのλ、DropOutRatioなどのハイパーパラメータを最適化します。ＭＮＩＳＴのデータセットを用いて、どのように最適化していくのか調べていきます。

＜その１＞

WeightDecayのλをハイパーパラメータとして最適値を探します。
下のプログラムを実行します。（第１０回と同じディレクトリに保存して実行します）

# coding: utf-8
import sys, os
sys.path.append(os.pardir)  # 親ディレクトリのファイルをインポートするための設定
import numpy as np
import matplotlib.pyplot as plt
from mnist import load_mnist
from multi_layer_net import MultiLayerNet
from util import shuffle_dataset
from trainer import Trainer

(x_train, t_train), (x_test, t_test) = load_mnist(normalize=True)

# 高速化のため訓練データの削減
x_train = x_train[:500]
t_train = t_train[:500]

# 検証データの分離
validation_rate = 0.20
validation_num = int(x_train.shape[0] * validation_rate)
x_train, t_train = shuffle_dataset(x_train, t_train)
x_val = x_train[:validation_num]
t_val = t_train[:validation_num]
x_train = x_train[validation_num:]
t_train = t_train[validation_num:]


def __train(lr, weight_decay, epocs=50):
    network = MultiLayerNet(input_size=784, hidden_size_list=[100, 100, 100, 100, 100, 100],
                            output_size=10, weight_decay_lambda=weight_decay)
    trainer = Trainer(network, x_train, t_train, x_val, t_val,
                      epochs=epocs, mini_batch_size=100,
                      optimizer='sgd', optimizer_param={'lr': lr}, verbose=False)
    trainer.train()

    return trainer.test_acc_list, trainer.train_acc_list


# ハイパーパラメータのランダム探索======================================
optimization_trial = 100
results_val = {}
results_train = {}
for _ in range(optimization_trial):
    # 探索したハイパーパラメータの範囲を指定===============
    weight_decay = 10 ** np.random.uniform(-8, -4)
    lr = 10 ** np.random.uniform(-6, -2)
    # ================================================

    val_acc_list, train_acc_list = __train(lr, weight_decay)
    print("val acc:" + str(val_acc_list[-1]) + " | lr:" + str(lr) + ", weight decay:" + str(weight_decay))
    key = "lr:" + str(lr) + ", weight decay:" + str(weight_decay)
    results_val[key] = val_acc_list
    results_train[key] = train_acc_list

# グラフの描画========================================================
print("=========== Hyper-Parameter Optimization Result ===========")
graph_draw_num = 20
col_num = 5
row_num = int(np.ceil(graph_draw_num / col_num))
i = 0

for key, val_acc_list in sorted(results_val.items(), key=lambda x:x[1][-1], reverse=True):
    print("Best-" + str(i+1) + "(val acc:" + str(val_acc_list[-1]) + ") | " + key)

    plt.subplot(row_num, col_num, i+1)
    plt.title("Best-" + str(i+1))
    plt.ylim(0.0, 1.0)
    if i % 5: plt.yticks([])
    plt.xticks([])
    x = np.arange(len(val_acc_list))
    plt.plot(x, val_acc_list)
    plt.plot(x, results_train[key], "--")
    i += 1

    if i >= graph_draw_num:
        break

plt.show()

実行するとパラメーターの探索を実施します。最後に正解率が高い物から１５個取得して、グラフにします。

Best-1は
Best-1(val acc:0.76) | lr:0.00866728, weight decay:6.98663388e-05
ですので、これを学習に利用してみます。

＜その２＞

DoropOutのRatioをハイパーパラメータとして最適値を探します。
下のプログラムを実行します。（第１０回と同じディレクトリに保存して実行します）

# coding: utf-8
import sys, os
sys.path.append(os.pardir)  # 親ディレクトリのファイルをインポートするための設定
import numpy as np
import matplotlib.pyplot as plt
from mnist import load_mnist
from multi_layer_net_extend import MultiLayerNetExtend
from util import shuffle_dataset
from trainer import Trainer

(x_train, t_train), (x_test, t_test) = load_mnist(normalize=True)

# 高速化のため訓練データの削減
x_train = x_train[:500]
t_train = t_train[:500]

# 検証データの分離
validation_rate = 0.20
validation_num = int(x_train.shape[0] * validation_rate)
x_train, t_train = shuffle_dataset(x_train, t_train)
x_val = x_train[:validation_num]
t_val = t_train[:validation_num]
x_train = x_train[validation_num:]
t_train = t_train[validation_num:]


def __train(lr, weight_decay, epocs=50):
    network = MultiLayerNetExtend(input_size=784, hidden_size_list=[100, 100, 100, 100, 100, 100],
                              output_size=10, use_dropout=True, dropout_ration=dropout_ratio)
    trainer = Trainer(network, x_train, t_train, x_val, t_val,
                      epochs=epocs, mini_batch_size=100,
                      optimizer='sgd', optimizer_param={'lr': lr}, verbose=False)
    trainer.train()

    return trainer.test_acc_list, trainer.train_acc_list


# ハイパーパラメータのランダム探索======================================
optimization_trial = 100
results_val = {}
results_train = {}
for _ in range(optimization_trial):
    # 探索したハイパーパラメータの範囲を指定===============
    dropout_ratio = 10 ** np.random.uniform(-8, -4)
    lr = 10 ** np.random.uniform(-6, -2)
    # ================================================

    val_acc_list, train_acc_list = __train(lr, dropout_ratio)
    print("val acc:" + str(val_acc_list[-1]) + " | lr:" + str(lr) + ", dropout ratio:" + str(dropout_ratio))
    key = "lr:" + str(lr) + ", dropout ratio:" + str(dropout_ratio)
    results_val[key] = val_acc_list
    results_train[key] = train_acc_list

# グラフの描画========================================================
print("=========== Hyper-Parameter Optimization Result ===========")
graph_draw_num = 20
col_num = 5
row_num = int(np.ceil(graph_draw_num / col_num))
i = 0

for key, val_acc_list in sorted(results_val.items(), key=lambda x:x[1][-1], reverse=True):
    print("Best-" + str(i+1) + "(val acc:" + str(val_acc_list[-1]) + ") | " + key)

    plt.subplot(row_num, col_num, i+1)
    plt.title("Best-" + str(i+1))
    plt.ylim(0.0, 1.0)
    if i % 5: plt.yticks([])
    plt.xticks([])
    x = np.arange(len(val_acc_list))
    plt.plot(x, val_acc_list)
    plt.plot(x, results_train[key], "--")
    i += 1

    if i >= graph_draw_num:
        break

plt.show()

同じような出力がされます。

Best-1は
Best-1(val acc:0.78) | lr:0.00964039, dropout ratio:1.60053373e-05
ですので、これを学習に利用してみます。

＜MNISTによる学習＞

上で実行したその１とその２のハイパーパラメーターを利用して、学習をして、手書きの文字を認識してみます。
下のプログラムを実行します。（第１０回と同じディレクトリに保存して実行します）

# coding: utf-8
import sys, os
import numpy as np
import matplotlib.pyplot as plt
from mnist import load_mnist
from multi_layer_net import MultiLayerNet
from multi_layer_net_extend import MultiLayerNetExtend
from util import shuffle_dataset
from trainer import Trainer
import pickle

(x_train, t_train), (x_test, t_test) = load_mnist(normalize=True)


# 検証データの分離
validation_rate = 0.20
validation_num = int(x_train.shape[0] * validation_rate)
x_train, t_train = shuffle_dataset(x_train, t_train)
x_val = x_train[:validation_num]
t_val = t_train[:validation_num]
x_train = x_train[validation_num:]
t_train = t_train[validation_num:]


def __train_weight_decay(lr, weight_decay, epocs=50):
    network = MultiLayerNet(input_size=784, hidden_size_list=[100, 100, 100, 100, 100, 100],
                            output_size=10, weight_decay_lambda=weight_decay)
    trainer = Trainer(network, x_train, t_train, x_val, t_val,
                      epochs=epocs, mini_batch_size=100,
                      optimizer='sgd', optimizer_param={'lr': lr}, verbose=False)
    trainer.train()
    techacademy = network
    with open('MyNetwork_weight_decay' +'.pkl', 'wb') as MyNetwork:
        pickle.dump(techacademy , MyNetwork)
    return trainer.test_acc_list, trainer.train_acc_list



# ハイパーパラメータを指定===============
weight_decay = 6.98663388e-05
lr = 0.00866728
# ================================================

val_acc_list, train_acc_list = __train_weight_decay(lr, weight_decay)
print("val acc:" + str(val_acc_list[-1]) + " | lr:" + str(lr) + ", weight decay:" + str(weight_decay))

 

def __train_dropout(lr, weight_decay, epocs=50):
    network = MultiLayerNetExtend(input_size=784, hidden_size_list=[100, 100, 100, 100, 100, 100],
                              output_size=10, use_dropout=True, dropout_ration=dropout_ratio)
    trainer = Trainer(network, x_train, t_train, x_val, t_val,
                      epochs=epocs, mini_batch_size=100,
                      optimizer='sgd', optimizer_param={'lr': lr}, verbose=False)
    trainer.train()
    techacademy = network
    with open('MyNetwork_dropout'  +'.pkl', 'wb') as MyNetwork:
        pickle.dump(techacademy , MyNetwork)
    return trainer.test_acc_list, trainer.train_acc_list



# ハイパーパラメータを指定===============
dropout_ratio = 1.60053373e-05
lr = 0.00964039
# ================================================

val_acc_list, train_acc_list = __train_dropout(lr, dropout_ratio)
print("val acc:" + str(val_acc_list[-1]) + " | lr:" + str(lr) + ", dropout ratio:" + str(dropout_ratio))

学習が完了すると、「MyNetwork_weight_decay.pkl」「MyNetwork_dropout.pkl」の２つが出力されます。（それぞれ数分かかります）さらに以下を実行すると「test.png」のファイルにある手書きの文字を認識します。

# coding: utf-8
import os
import sys
import matplotlib.pyplot as plt
from optimizer import *
import pickle
from PIL import Image

#モデルを読みだす
with open('MyNetwork_weight_decay.pkl', 'rb') as  MyNetwork_WD:
  MyNetwork_WD_Model = pickle.load( MyNetwork_WD)

with open('MyNetwork_dropout.pkl', 'rb') as  MyNetwork_DO:
  MyNetwork_DO_Model = pickle.load( MyNetwork_DO)
  
#自分で書いた文字を表示
myimg = Image.open('test.png').convert('L')
myimg.thumbnail((28, 28)) # 28*28に変換
myimg = np.array(myimg) # numpy arrayに変換
plt.imshow(myimg)
plt.show()

#自分で書いた文字を判定
myimg_array=np.array(myimg.flatten())
myimg_array=myimg_array/255
myimg_array=myimg_array.reshape(1,784)


print('weight_decay_model')
y = MyNetwork_WD_Model.predict(myimg_array)
print(y)
p=np.argmax(y)
print(p)

print('dropout_model')
y = MyNetwork_DO_Model.predict(myimg_array)
print(y)
p=np.argmax(y)
print(p)

何度かＭＮＩＳＴを実行してきましたが、いろいろな方法を使う事で、良さそうなモデルができました。第６回のＭＮＩＳＴと比較すると信頼性が高くなっていることが実感できると思います。

－－－－－－－－－－－－－

（第１２回）ハイパーパラメーター最適化

＜その１＞

＜その２＞

＜MNISTによる学習＞

機械学習のメモ

メニュー