ミニバッチSGD：なぜ全体最適に辿り着けるのか

ミニバッチ勾配の「ばらつき（分散 ∝ 1/バッチサイズ）」が局所最適脱出のカギ — 全データGDとの違いを観察しよう

① データ空間（橙 = 今回のミニバッチ）

② ミニバッチの損失面と勾配方向

③ 全データGD ／ミニバッチSGD の軌跡比較

クラスタA（20点・大域最適）クラスタB（10点・局所最適）今回のミニバッチ全データGD（青）ミニバッチSGD（橙破線）勾配の逆方向（更新先） ■ 赤い山 = クラスタ間のバリア（局所最適を生み出す損失の山） ★ SGDの揺らぎ（分散）∝ 1/バッチサイズ — 小バッチほど脱出しやすい

📌 使い方： θ の出発点はクラスタB（局所最適）の付近です。②③の赤い山がクラスタ間のバリアです。
なぜSGDは脱出できるのか？ ミニバッチ勾配は全体勾配の不偏推定量ですが、分散（ばらつき）があります。その分散は 1/バッチサイズ に比例します。バッチが小さいほど大きなランダム揺らぎが加わり、バリアを偶然越えるきっかけになります。全データGD（バッチサイズ=30）は揺らぎが非常に小さく、バリアに阻まれたまま動けません。
（η=0.25、バッチサイズ2〜4を推奨。1000ステップで脱出を確認できます。バッチサイズ30にすると全データGDと同じ振る舞いになります）

ミニバッチSGD：局所最適を抜け出して全体最適へ