BMVC 2013 (二日目)

今日から本会議が始まりました。
シングルトラックでゆったりとしたタイムスケジュールなので、しっかりと見て回ることができました。いくつか気になったものを紹介します。


(ポスターセッションの様子)

Label embedding for text recognition
Jose Rodriguez, Florent Perronnin
一般画像からの単語(看板など)の認識は、文字識別を出発点とし、CRFなどでボトムアップに統合するアプローチが主流でしたが、この方法では単語全体を一つの特徴ベクトルで表し、対になる画像特徴ベクトルと合わせてmultiview embeddingを行い、全体のコンテクストを最初から用いるアプローチを提案しています。

Fisher Vector Faces in the Wild
Karen Simonyan, Omkar Parkhi, Andrea Vedaldi, Andrew Zisserman
顔認識には従来専用の特徴量が使われてきましたが、物体認識の汎用的な特徴量であるFisher vectorでやってみたら従来手法より良かったようです。
計算コストを度外視すれば、タスクに関わらず密に特徴抽出を行うほうが性能はよいのかも知れません。

A Novel Approach for Efficient SVM Classification with Histogram Intersection Kernel
Gaurav Sharma, Frederic Jurie
ヒストグラムインタセクションカーネル(HIK)はビジョン分野で頻出するカーネルです。サンプル数に対するスケーラビリティを確保するための方法として、陽に近似的な高次元空間を導出するfeature mappingという方法がよく知られていますが、空間計算量が問題になります。この論文では、HIKを用いた際のSVMの主問題を変形し、quasi-complexな目的関数の最大化問題へ帰着させることで、元の空間における線形オーダーの評価を行います。
今のところHIK限定のようですが、このようなアプローチが一般化できれば面白いと思いました。

Fast Explicit Diffusion for Accelerated Features in Nonlinear Scale Spaces
Pablo Alcantarilla, Jesus Nuevo, Adrien Bartoli
ECCV'12で著者らが発表したKAZE descriptorの改良版であるA-KAZE descriptorを提案。マルチスケールにおける検出と特徴記述の双方を工夫し、高速化&バイナリ化。
コード → http://www.robesafe.com/personal/pablo.alcantarilla/kaze.html

FRIF: Fast Robust Invariant Feature
Zhenhua Wang, Bin Fan, Fuchao Wu
こちらも流行りのバイナリ記述子に関する研究。LoGを矩形の組み合わせで近似し、それぞれを積分画像で計算することで高速化。また、バイナリビットを取る際にパターン内外両方の情報をとるように工夫。

Multi-scale Joint Encoding of Local Binary Patterns for Texture and Material Classification
Xianbiao Qi, Yu Qiao, Chun-Guang Li, Jun Guo
異なるスケールで空間的に隣接するLBPの共起をとり、埋め込んだ特徴量を提案。著者の方は特徴の共起を見るというコンセプトで多くの仕事をされており、私もICMEで似たようなことをしていたので話が弾みました。

Multi-view Body Part Recognition with Random Forests
Vahid Kazemi, Magnus Burenius, Hossein Azizpour, Josephine Sullivan
他視点のカメラ映像から、人物(サッカー選手など)の三次元の姿勢を推定。それぞれの映像でrandom forestを用いて二次元の尤度マップを作成したあと三次元的に統合。映像はキャリブレーションされていることが前提ですが、実用性の高いセットアップにおけるデータからかなり高精度に推定ができており驚きました。