ミニバッチSGD:局所最適を抜け出して全体最適へ

ミニバッチ勾配の「ばらつき(分散 ∝ 1/バッチサイズ)」が局所最適脱出のカギ — 全データGDとの違いを観察しよう

① データ空間(橙 = 今回のミニバッチ)
② ミニバッチの損失面と勾配方向
③ 全データGD / ミニバッチSGD の軌跡比較
クラスタA(20点・大域最適) クラスタB(10点・局所最適) 今回のミニバッチ 全データGD(青) ミニバッチSGD(橙破線) 勾配の逆方向(更新先) ■ 赤い山 = クラスタ間のバリア(局所最適を生み出す損失の山) ★ SGDの揺らぎ(分散)∝ 1/バッチサイズ — 小バッチほど脱出しやすい
ステップ: 0
📌 使い方: θ の出発点はクラスタB(局所最適)の付近です。②③の赤い山がクラスタ間のバリアです。
なぜSGDは脱出できるのか? ミニバッチ勾配は全体勾配の不偏推定量ですが、分散(ばらつき)があります。 その分散は 1/バッチサイズ に比例します。バッチが小さいほど大きなランダム揺らぎが加わり、 バリアを偶然越えるきっかけになります。全データGD(バッチサイズ=30)は揺らぎが非常に小さく、バリアに阻まれたまま動けません。
(η=0.25、バッチサイズ2〜4を推奨。1000ステップで脱出を確認できます。バッチサイズ30にすると全データGDと同じ振る舞いになります)