ICCV 2013 (2) - 東京大学中山研究室　研究日記

中山です。
引き続き、ICCV 2013の発表論文から、いくつか紹介します。

Structured Forests for Fast Edge Detection
Piotr Dollar, C. Lawrence Zitnick
Random forestを構造学習へ拡張し、エッジ検出を行います。連続的なラベルの空間を、information gainが評価できる離散的な空間へマッピングし、ツリーの学習を行います。同様の手法と比べ、スコア関数の定義が必要ないことなどがポイントのようです（あまり詳しくないので間違っているかもしれません）

Style-aware Mid-level Representation for Discovering Visual Connections in Space and Time
Yong Jae Lee, Alexei A. Efros, and Martial Hebert
Visual data miningの研究。時代や場所に固有のスタイル（例えば、その時代の車のタイヤの形状など）をとらえた画像のパッチを自動的にマイニングします。
グループの画像を集めて識別器を構築し、段階的に繰り返していくことで、スタイルの変遷を可視化することができるようになっています。
また、同様のアプローチで、fine-grained visual categorizationにおける識別的な特徴を抽出できることも示しています。

Codemaps Segment, Classify and Search Objects Locally
Zhenyang Li, Efstratios Gavves, Koen van de Sande, Cees Snoek, Arnold Smeulders
積分画像を用い、各局所特徴の反応を保持しておくことで高速な検出を行う手法がC. Lampertらにより提案されていますが、通常のbag-of-wordsでは線形手法識別器を直接適用すると性能が十分に出ないことが問題になります。この研究では、explicit feature mapやFisher vectorなどの線形識別可能な特徴を用いることでパフォーマンスを上げています。

Active MAP Inference in CRFs for Efficient Semantic Segmentation
Xavier Boix, Roderick De Nijs, Sebastian Ramos, Luc Van Gool
一般的なCRFにおけるMAP推定では、各ノードのunary potentialが全て既知である必要があります。この手法では、未知のunary potentialがある場合の推定手法を提案しています。例えば、semantic segmentationなどではunary potentialの計算コストがMAP推定自体に比べずっと大きいので、このようなアプローチが有利になります。

Heterogeneous Auto-Similarities of Characteristics (HASC): Exploiting Relational Information for Classiﬁcation
Marco San Biagio, Marco Crocco, Marco Cristani
Region covariance descriptorの拡張で、特徴要素間の相関に加えて相互情報量をとることで、非線形な関係性を定量化でき識別性能を向上させることができます。相互情報量をとるために各特徴要素を離散化する必要がありますが、実験的には離散化のビン数はかなり少なくても大丈夫なようです。シンプルなアイデアですが非常に面白いと思いました。

Pedestrian Parsing via Deep Decompositional Network
Ping Luo, Xiaogang Wang, Xiaoou Tang
Deep learningを用いて、歩行者の体の部位をセグメンテーションします。入力は生画像ではなくHOG特徴ですが、オクルージョンを推定する層を明示的に加えている点が面白いです。他にも、既存の特徴を入力として深層学習を行っている研究がいくつかありましたが、ビジョンの分野ではlow-levelな特徴抽出はまだSIFTやHOG等への信頼が大きいのかもしれません。

YouTube2Text: Recognizing and Describing Arbitrary Activities Using Semantic Hierarchies and Zero-Shoot Recognition
Sergio Guadarrama, Niveda Krishnamoorthy, Girish Malkarnenkar, Raymond Mooney, Trevor Darrell, Kate Saenko, UMass Lowell
動画を短いテキストで要約するものです。未知の内容についても、辞書の階層構造を用い上位にさかのぼって、妥当性のある単語で説明を行います。今回の会議では他にも動画への文章付与の発表があり、画像・動画像からの自然言語文生成は一つのジャンルとして確立した印象があります。

Abnormal Event Detection at 150 FPS in MATLAB
Cewu Lu, Jianping Shi, Jiaya Jia
複数の部分空間のスパースな結合を用い、reconstruction errorで異常検出を行います。実際のテスト時の操作は極めて単純なので、高速な検出を行うことができます。部分空間からのreconstruction errorを用いて異常検出を行うアプローチは日本でも広く知られており、興味深いです。

Fast Subspace Search via Grassmannian Based Hashing
Xu Wang, Stefan Atev, John Wright, Gilad Lerman
部分空間の多様体表現であるグラスマン多様体上でのLSHによるハッシング手法を提案しています。これにより、入力が部分空間で表現される問題において高速な検索を実現しています。グラスマン多様体の利用も近年流行しているトピックの一つであるように思います。部分空間法が好きな人にとってはチャンスかもしれません。

Unsupervised Visual Domain Adaptation Using Subspace Alignment
Basura Fernando, Amaury Habrard, Marc Sebban, Tinne Tuytelaars
Unsupervised domain adaptationの有名な手法であるgeodesic flow kernel (GFK)では、ソースとターゲットの部分空間をグラスマン多様体を用いて連続的につなぐものでしたが、この研究では直接フロベニウスノルムが最小となるような線形変換を解析的に得ており、GFKを上回る性能を得ています。

Training Deformable Part Models with Decorrelated Features
Ross Girshick, Jitendra Malik
DPMのコアであるlatent SVMと同様のアルゴリズムを、フィッシャーの線形判別分析をベースにして行うlatent LDAを提案しています。Latent SVMと同等の精度を達成しますが、学習は4倍以上速いそうです。クラス内共分散行列の逆行列でホワイトニングした特徴を使う発想は、exemplar-LDAと同様で、実際同じチームの発表です。

Recognising Human-Object Interaction via Exemplar Based Modelling
Jian-Fang Hu, Sun Yat-sen, Wei-Shi Zheng, Jian-Huang Lai, Shaogang Gong, Tao Xiang
画像中の人間と物体のインタラクションHOI descriptorで表現し、exemplarベースで識別器を構成しています。人間と物体のインタラクションは最近注目されているトピックの一つで、そこにexemplarベースの考え方を取り入れており、いかにも流行の最先端という感じの研究です。

Visual Semantic Complex Network for Web Images
Shi Qiu, Xiaogang Wang, Xiaoou Tang
Web上の膨大な画像を、画像とテキストのそれぞれを使ってクラスタリング（グラフで表現）し、結果を統合して画像検索や認識のための潜在的な空間を導出します。この手の話はマルチメディア系を中心に昔からやられていますが、かなり大規模なグラフを比較的短時間で構築し、実用的なアプリケーションまで提示できている点が評価されているように思いました。

以上、総括すると、今回よく目にしたキーワードは
・Exemplar-base
・Grassmannian manifold
・Deep learning
・Domain adaptation
・Attribute
・Human object interaction
・Fine grained categorization
といったところでしょうか（かなり主観が入っていますが）

次回は、併設のワークショップであるImageNet large-scale visual recognition challengeについて報告したいと思います。お楽しみに。