naive-attentionviz

AttentionViz(の一部)をBERTで再現してみる

AttentionViz: A Global View of Transformer Attentionでアテンションを可視化する際に「アテンションに影響与えない範囲で積極的にベクトルをいじる」というのが面白いので再現してみたい。

どこに興味を持ったか

多次元ベクトルを2〜3次元空間に描画する際、一般的にはPCAなりで「なるべく情報量を保ちつつ低次元に落とし込む」ことを考える。

AttentionVizも最終的にはそうするのだけどその前に以下のような前提に基づき「意図的にベクトルをいじっている」ところが面白い。

なぜ再現してみようとしたのか

実際にやったこと

結論

BERTでQ, K, Vの重みベクトル取得する部分は十分うまくいった。他モデルでも似たような感じで書けるのかは未確認だけれども、なんとかなるといいな。

あくまでも1センテンスで1レイヤーのみしか処理していないのだけれども、

やり残し

tips的な何か

参考