マイコン君　Ｅ資格の勉強メモ（その２）

（第５回）Ｗｏｒｄ２Ｖｅｃその②

推論ベースで短いコーパスでは処理ができましたが、ＰＴＢデータセットの単語数ではone-hot表現が現実的なサイズではないので、この部分を対応する必要があります。もう１点重みの出力側でもおなじように大きな行列で処理することになるので、同様に対応が必要です。
①入力のone-hot表現（Ｗin）
②Ｗoutの積とＳｏｆｔｍａｘ
この２つの対応をしないと実用的なものになりませんので、調べていきます。

＜Ｅｍｂｅｄｄｉｎｇ＞

Ｅｍｂｅｄｄｉｎｇ＝埋め込みという意味でＥｍｂｅｄｄｉｎｇレイヤを実装することで、①のone-hot表現の対応をします。具体的には、１度にすべてのコーパスを行列にするのではなく、コーパスからランダムで選択したテキストをバッチ処理する方法になります。
バッチサイズ毎に順伝播、逆伝播を行い学習をすすめる事になります。①だけの順伝播、逆伝播を以下の図で表します。

順伝播時は、単純にＷから指定した行を抜き出すだけです。逆伝播の場合も同じ用に、前の層（例えば出力側の層）から伝わってきた勾配を次の層（入力側の層）へそのまま伝えるだけになります。

Ｐｙｔｈｏｎでそれぞれオプログラムを書いてみます。

import numpy as np

class Embedding:
    def __init__(self, W):
        self.params = [W]
        self.grads = [np.zeros_like(W)]
        self.idx = None

    def forward(self, idx):
        W, = self.params
        self.idx = idx
        out = W[idx]
        return out

    def backward(self, dout):
        dW, = self.grads
        dW[...] = 0
        np.add.at(dW, self.idx, dout)

print('順伝播(idx=2)')
W=np.arange(21).reshape(7,3)
in_Layer0=Embedding(W)#重み
h_idx=[[1,2,3]]#順伝播
print('W=')
print(W)
print('h=')
h2=in_Layer0.forward(2)
print(h2)

print('')
print('逆伝播(idx=2)')
print('dh=')

#１個だけ
dh_idx=[1,2,3]
in_Layer0.idx=2
in_Layer0.backward(dh_idx)
#２個
#dh_idx=[1,2,3],[4,5,6]
#in_Layer0.idx=[2,3]
#in_Layer0.backward(dh_idx)

print(dh_idx)#逆伝播
print('dW=')
dW=in_Layer0.grads
print(dW)

順伝播、逆伝播ともにｉｄｘ＝２として考えてみると、順伝播の場合は、［６，７，８］が出力側へ伝達され、逆伝播は、［０，１，２］が入力側に伝達されています。また１個だけ更新することは無く、複数個更新する場合もコメントアウトしてあります。特に同じidx番号に逆伝播される場合は、加算されるという点に注意が必要です。
ＭａｔＭａｌからＥｍｂｅｄｄｉｎｇにすると計算が早くなります。

－－－－－－－－－－－－－

（第５回）Ｗｏｒｄ２Ｖｅｃその②

＜Ｅｍｂｅｄｄｉｎｇ＞

機械学習のメモ（その２）