ヴェネチア大学訪問研究(その2)

コンピュータビジョングループで定期的に開催されているセミナーで、talkをさせて頂きました。内容は博士課程時代の仕事である大規模画像認識についてです。本当はこちらで始めた仕事についてディスカッションしたいところでしたが、まだ到着後一週間ほどで内容も固まっていなかったため見送ることにしました。

発表のスライドをこちらにアップロードしました。
http://www.slideshare.net/nlab_utokyo/seminar-16291750
以前のものとあまり変わり映えしませんが、実際に自分がやった仕事を多めに説明してあります。せっかくなので内容について簡単に説明します。

「大規模」とは、ここでは「学習サンプルの数が多い」ことを指しており、数百万・数千万サンプルから識別器を学習することを想定しています。このような場合、学習サンプル数に対するスケーラビリティが必要なため単純な線形モデルを用いざるを得ませんが、その場合特徴ベクトルにはある条件が必要になります。具体的には、特徴ベクトルの内積がサンプル間の適切な類似度を示している(あるいは近似している)ことが決定的に重要です。この条件が満たされる場合、線形カーネルを用いたカーネルマシンがうまく力を発揮してくれますが、これは普通の線形識別器をもとの座標系に直接適用することに等価であるため、線形識別器による学習の妥当性が保証されます。基本的に、最近の大規模画像認識の研究はどれもこの方向性で発展しています。

例えば、Explicit embeddingとよばれるアプローチでは、ヒストグラムインタセクションカーネルなどの従来標準的に用いられてきた非線形カーネルを、内積で近似できるような高次元の座標空間を導出します。もともとそのような高次元空間を陽に考えなくても、元の特徴空間で隠蔽できるのがカーネル法のよいところだったのですが、大規模な学習の場合は特徴次元数よりサンプル数に対するスケーラビリティが重要となるためこのような考え方が逆に有利になります。

提案手法であるGlobal Gaussianでは、画像中の局所特徴分布をガウシアンでモデル化し、ガウシアンのパラメータが為す多様体上の距離(KL divergence) を接空間で近似することで、線形モデルの適用を(近似的に)可能としています。強力な手法としてよく知られているFisher vectorも基本的に同じ考え方に則っており、情報幾何の手法を応用しています。

大事なのは、単に適当に計算コストの軽い特徴量を並べて特徴ベクトルにすればよいわけではなく、サンプルにどのような生成モデルを仮定し、そのモデル間の類似度がどうあるべきかという議論を出発点にすべきであることです。これは、こちらのグループのsimilarity-based pattern recognitionのアプローチとまさに共通するところであり、かなり共感を持って聞いて頂けたと思っています。