将棋AIで学ぶディープラーニング on Mac and Google Colab

2022.09.112022.04.10

[方策ネットワーク]
第9章

学習テクニック

$$W^{t+1} ← W^t-lr\frac{∂E(W^t)}{∂W^t}$$

lr = 0.01

$$W^{t+1} ← W^t-lr\frac{∂E(W^t)}{∂W^t}+αΔW^t$$

lr = 0.01
途中で学習が止まった。lrが大きすぎたか。（本ではlr = 0.005にしている。）

lr = 0.01
Batch Normalizationすることでaccuracyが向上した。

Batch Normalizationの詳細は本には書いていないので下記記事を見て勉強した。
・バッチノームは、ミニバッチごと同一チャネルごとで、活性化関数を通す前の値を平均0,分散1に正規化するもの。
・バッチノームで改善する理由は不明。

バッチノームを導入したAIで対局してみた。バッチノーム弱すぎ。

終局図