マイコン君　Ｅ資格の勉強メモ

（第１１回）過学習

訓練データにばかり適用しすぎて、そのほかのデータにはうまく対応できない（＝汎化性能が低い）学習を過学習と言います。

＜ノルムについて＞

過学習にならないように、重みの減衰をさせる（罰則を設ける）方法がありますが、ノルムについて理解しておく必要があります。Ｌ１ノルムの正則化（Ｌａｓｓｏ回帰）、Ｌ２ノルムの正則化（Ｒｉｄｇｅ回帰）などが機械学習を勉強するとよく出てくる言葉です。
〇Ｌ１ノルム
絶対値の和になります。
$||x_{1}||=|w_{1}|+|w_{2}|+|w_{3}|+・・・|w_{n}|$
〇Ｌ２ノルム
２乗の和になります。
$||x_{2}||=\sqrt{|w_{1}|^{2}+|w_{1}|^{2}+|w_{1}|^{2}+・・・|w_{n}|^{2}}$
下のプログラムを実行します。

import numpy as np
import matplotlib.pyplot as plt
 
plt.figure()
 
# 矢印（ベクトル）の始点
O = np.array([0,0])
# 矢印（ベクトル）の成分
X = np.array([4,3])
 
# 矢印（ベクトル）
plt.quiver(O[0],O[1],
           X[0],X[1], 
           angles='xy',scale_units='xy',scale=1)
 
# グラフ表示
plt.xlim([-5,5])
plt.ylim([-5,5])
plt.grid()
plt.draw()
plt.show()

#L0ノルムは非ゼロ要素の個数を数えたものx(4,3)なので２個。x(4,0)なら１個となる
print(np.linalg.norm(X, ord=0))
#L1ノルムは絶対値総和x(4,3)なので４＋３＝７
#|x0|+|x1|+・・・・
print(np.linalg.norm(X,ord=1))
print(np.sum(np.abs(X)))
#L2ノルムは２乗和x(4,3)なのでsqrt(４^２＋３^２)＝５(ユークリッドノルム)
#√x0^2+x1^2+・・・
print(np.linalg.norm(X, ord=2))
print((np.sum(np.abs(X**2)))**(1./2))
#L15ノルム
print(np.linalg.norm(X, ord=15))
print((np.sum(np.abs(X**15)))**(1./15))

#ノルム１～８＋１０００
fig = plt.figure(figsize=(7.50, 7.00))
for j in range(9):
    if j==8:
        LP_X=1000
    else:
        
        LP_X=j+1
    #グラフ
    plt.subplot(3, 3, j+1)
    X, Y = np.meshgrid(np.linspace(-1.0, 1.0, 201), np.linspace(-1.0, 1.0, 201))
    Z=(abs(X)**LP_X + abs(Y)**LP_X)**(1./LP_X)
    plt.title('LP='+str(LP_X))
    plt.contour(X, Y, Z)

plt.tight_layout()    
plt.show()

まずは基準０，０→４，３の矢印が表示されます。（４，３）の場合Ｌ０ノルムは０以外の数値が２個あるので、「２」となり、Ｌ１は「７」、Ｌ２は「５」です。ノルムの数が大きくなると徐々に四角形になります。

ＸとＹがノルムの数値によって、計算された高さを等高線で表示しています。
$\large{||Ｚ_{p}||=\sqrt[p]{（|ｘ|^{p}+|y|^{p}}}$
ｐ＝１（Ｌ１）、ｐ＝２（Ｌ２）で、ｐ＝∞（Ｌ∞）も利用される事があるようです。通常はＬ２ノルムが良く利用されるので、この形で正則化を行い重みを減衰させることで、過学習を発生させないようにしています。

＜Ｗｅｉｇｈｔ　Ｄｅｃａｙ＞

損失関数に罰則を加える手法です。Ｌ２ノルムをペナルティとして利用します。

$\LARGE{\frac{1}{2}λW^{2}}$
λは正則化の強さをコントロールするハイパーパラメータ
1/2はW^2を微分した結果をλWにするための調整用の定数

この項を損失関数に加えて重みが大きく変更されないようにしています。下のプログラムを実行します。（第１０回と同じディレクトリに保存して実行します）

# coding: utf-8
import os
import sys

sys.path.append(os.pardir)  # 親ディレクトリのファイルをインポートするための設定
import numpy as np
import matplotlib.pyplot as plt
from mnist import load_mnist
from multi_layer_net import MultiLayerNet
from optimizer import SGD

(x_train, t_train), (x_test, t_test) = load_mnist(normalize=True)

# 過学習を再現するために、学習データを削減
x_train = x_train[:300]
t_train = t_train[:300]

# weight decay（荷重減衰）の設定 =======================
#weight_decay_lambda = 0 # weight decayを使用しない場合
weight_decay_lambda = 0.1
# ====================================================

network = MultiLayerNet(input_size=784, hidden_size_list=[100, 100, 100, 100, 100, 100], output_size=10,
                        weight_decay_lambda=weight_decay_lambda)
optimizer = SGD(lr=0.01)

max_epochs = 201
train_size = x_train.shape[0]
batch_size = 100

train_loss_list = []
train_acc_list = []
test_acc_list = []

iter_per_epoch = max(train_size / batch_size, 1)
epoch_cnt = 0

for i in range(1000000000):
    batch_mask = np.random.choice(train_size, batch_size)
    x_batch = x_train[batch_mask]
    t_batch = t_train[batch_mask]

    grads = network.gradient(x_batch, t_batch)
    optimizer.update(network.params, grads)

    if i % iter_per_epoch == 0:
        train_acc = network.accuracy(x_train, t_train)
        test_acc = network.accuracy(x_test, t_test)
        train_acc_list.append(train_acc)
        test_acc_list.append(test_acc)

        print("epoch:" + str(epoch_cnt) + ", train acc:" + str(train_acc) + ", test acc:" + str(test_acc))

        epoch_cnt += 1
        if epoch_cnt >= max_epochs:
            break


# 3.グラフの描画==========
markers = {'train': 'o', 'test': 's'}
x = np.arange(max_epochs)
plt.plot(x, train_acc_list, marker='o', label='train', markevery=10)
plt.plot(x, test_acc_list, marker='s', label='test', markevery=10)
plt.xlabel("epochs")
plt.ylabel("accuracy")
plt.ylim(0, 1.0)
plt.legend(loc='lower right')
plt.show()

multi_layer_net.pyの「weight_decay += 0.5 * self.weight_decay_lambda * np.sum(W ** 2)」
が損失関数に加算している部分になります。

訓練データとテストデータの精度をweight_decay_lambdaの数値が０（なし）と０．１で比較すると、訓練データが１００％に到達しなくなっています。テストデータの正解率はどちらも変わりません。訓練データとテストデータの正解率の差が小さくなっており、過学習が抑制できていることがわかります。

＜Dropout＞

ニューラルネットワークのニューロンをランダムで選択して、その経路を遮断してしまう方法です。
入力と同じ形状の配列をランダムで形成し、その数値が、doropout_ratioより大きいもニューロンのみを使用します。（ratio以下の物は遮断）下のプログラムを実行します。（第１０回と同じディレクトリに保存して実行します）

# coding: utf-8
import os
import sys
sys.path.append(os.pardir)  # 親ディレクトリのファイルをインポートするための設定
import numpy as np
import matplotlib.pyplot as plt
from mnist import load_mnist
from multi_layer_net_extend import MultiLayerNetExtend
from trainer import Trainer

(x_train, t_train), (x_test, t_test) = load_mnist(normalize=True)

# 過学習を再現するために、学習データを削減
x_train = x_train[:300]
t_train = t_train[:300]

# Dropuoutの有無、割り合いの設定 ========================
use_dropout = True  # Dropoutなしのときの場合はFalseに
dropout_ratio = 0.20
# ====================================================

network = MultiLayerNetExtend(input_size=784, hidden_size_list=[100, 100, 100, 100, 100, 100],
                              output_size=10, use_dropout=use_dropout, dropout_ration=dropout_ratio)
trainer = Trainer(network, x_train, t_train, x_test, t_test,
                  epochs=301, mini_batch_size=100,
                  optimizer='sgd', optimizer_param={'lr': 0.01}, verbose=True)
trainer.train()

train_acc_list, test_acc_list = trainer.train_acc_list, trainer.test_acc_list

# グラフの描画==========
markers = {'train': 'o', 'test': 's'}
x = np.arange(len(train_acc_list))
if use_dropout==True:
    plt.title("Dropout:"+str(use_dropout)+"(ratio:" + str(dropout_ratio) +")")
else:
    plt.title("Dropout:"+str(use_dropout))
plt.plot(x, train_acc_list, marker='o', label='train', markevery=10)
plt.plot(x, test_acc_list, marker='s', label='test', markevery=10)
plt.xlabel("epochs")
plt.ylabel("accuracy")
plt.ylim(0, 1.0)
plt.legend(loc='lower right')
plt.show()

訓練データとテストデータの精度をＤｏｒｏｐｏｕｔの有無で比較すると、訓練データが１００％に到達しなくなっています。dropout_ratio＝０．２で行っていますが、訓練データとテストデータの正解率の差が小さくなっており、過学習が抑制できていることがわかります。

－－－－－－－－－－－－－

（第１１回）過学習

＜ノルムについて＞

＜Ｗｅｉｇｈｔ　Ｄｅｃａｙ＞

＜Dropout＞

機械学習のメモ

メニュー

（第１１回）過学習

＜ノルムについて＞

＜Ｗｅｉｇｈｔ Ｄｅｃａｙ＞

＜Dropout＞

機械学習のメモ

メニュー

＜Ｗｅｉｇｈｔ　Ｄｅｃａｙ＞