ミニバッチSGD:局所最適を抜け出して全体最適へ
ミニバッチ勾配の「ばらつき(分散 ∝ 1/バッチサイズ)」が局所最適脱出のカギ — 全データGDとの違いを観察しよう
③ 全データGD / ミニバッチSGD の軌跡比較
クラスタA(20点・大域最適)
クラスタB(10点・局所最適)
今回のミニバッチ
全データGD(青)
ミニバッチSGD(橙破線)
勾配の逆方向(更新先)
■ 赤い山 = クラスタ間のバリア(局所最適を生み出す損失の山)
★ SGDの揺らぎ(分散)∝ 1/バッチサイズ — 小バッチほど脱出しやすい
📌 使い方:
θ の出発点はクラスタB(局所最適)の付近です。②③の赤い山がクラスタ間のバリアです。
なぜSGDは脱出できるのか? ミニバッチ勾配は全体勾配の不偏推定量ですが、分散(ばらつき)があります。
その分散は 1/バッチサイズ に比例します。バッチが小さいほど大きなランダム揺らぎが加わり、
バリアを偶然越えるきっかけになります。全データGD(バッチサイズ=30)は揺らぎが非常に小さく、バリアに阻まれたまま動けません。
(η=0.25、バッチサイズ2〜4を推奨。1000ステップで脱出を確認できます。バッチサイズ30にすると全データGDと同じ振る舞いになります)