ICCV-ILSVRC 2013
前回に引き続き、ImageNet Large-scale Visual Recognition Challenge (ILSVRC)についてリポートします。
http://image-net.org/challenges/LSVRC/2013/iccv2013.php
ILSVRCは2010年から始まった大規模画像認識のコンペティションであり、ImageNetのラベル付データの一部を用いて実施されています。当初から120万枚の画像から1000クラスのカテゴリ識別を行うclassificationタスクが行われていますが、最近はdetectionのほうに中心的な興味が移っています。特に、今年からは従来の中心的なコンペティションであったPascal VOCが引退しこちらへ一本化され、Pascalと同じ形式で200クラスの物体検出を行うdetectionタスクが追加されています。また、Fine-grained visual categorizationに特化したコンペも併設で開催されました。今後、画像認識におけるフラッグシップのコンペティションとしての地位を更に高めていくものと思われます。
さて、多くの方がご存知の通り、昨年度のILSVRCでトロント大のHinton先生のチームがdeep learningで圧勝し、研究者の間に非常に大きな衝撃が走りました。これを受け、他の多くの分野と同様にコンピュータビジョンの分野においてもdeep learningの大きな波が訪れています。今年はどのような展開になるのか、非常に注目されていました。
結果としては、大方の予想通り、deep convolutional neural network (DCNN)がほぼ上位を独占しました。全員が使っていたかは定かではありませんが、発表していたチームのスライドには毎回DCNNの図が登場し、見ているほうも苦笑いといった雰囲気でした。ただ、DCNN自体の手法的なアップデートはほとんどなく、前回の優勝チームが出しているソフトウェアであるcuda-convnet*1をいかに早く使いこなし、チューニングをどれだけ行ったかで差がついているようでした。そういう意味では、あまり面白みの無い結果であったと言えそうです*2。ただ、トップのチームの結果では、1000クラスの識別ながらトップ5*3でのaccuracyが90%弱と、驚異的なレベルに達しています。
従来の特徴量によるアプローチとしては、OxfordのZisserman先生が、Fisher vectorを多層化したdeep Fisher networkを発表していました*4。プーリングをローカルに留めたFisher vectorを畳み込みつつ次元圧縮し、これを次の層への入力として更にFisher vectorをコーディングするというものです。従来のパイプラインでも、DCNNと同じように多層化すれば相応に識別精度が向上することが示されています。このような深層学習的な発想はビジョンの分野にも昔からあり、古くはECCV'06のHyperfeaturesで注目を浴びており、私も昨年のBMVCで極めて近い内容の発表をしましたので興味深かったです。とはいいつつ、最終的な結果はDCNNとのlate fusionで出しており、性能的にはDCNNの寄与が圧倒的に大きいので、実用上どれほど有効かはちょっと苦しいところです。
DCNNを用いずに善戦していたのは、detectionの新しい手法で、本会議でも発表のあったregionletsでした。これは、検出窓に大して大きさ・位置を正規化した相対的なsub-region (regionlets)を窓内に用意し、それらの特徴をプーリングして用いるものです。Descriptor自体は何を使ってもよく、既存の特徴量でもよいし、DCNNから得られる特徴を使った場合は更に性能が上がることも示されていました。感覚的にはDCNNがやっていることとも似ているのですが、検出窓に対してちゃんと正規化を行っていることや、空間的に離れた位置のregionletsもとれることが効いてるのかなと感じました。
なお、昨年度の議論では、DCNNの学習結果はどれくらい汎用性があるのか、という点が最も重要な課題として提起されていましたが、この部分への取り組みも多く始まっています。先行しているのは、UC BerkeleyのDarrell先生のところのDecaf/Caffe*5と呼ばれるソフトウェアで、ImageNetのデータで学習したDCNNの中間層のレスポンスを特徴として抽出するものです。これを使って他のベンチマーク(例えばCaltech-101)などで従来と同じように学習・識別を行うと、既存の特徴量と比較して圧倒的によい性能を示すことが分かっています。もちろん、ベンチマーク外のデータを使っているわけなので、従来のルールからすれば反則となるわけですが、実用性の観点からするともはやそのようなベンチマークに閉じた考え方自体がナンセンスな時代に入っているのかも知れません。
ちなみに、FGVCのサブタスクでもこのソフトウェアが登場していますが、Bird/DogなどImageNet上でも比較的データが充実していると思われるドメインに関してはDecafのパフォーマンスがよく、そうでないドメインについては従来のFisher vector等が上回るという、直感どおりの結果になっています。
最後のパネルでは著名な研究者によるディスカッションが行われ、deep learningの猛威について話題になりました。これまでのビジョン研究者の中心的な仕事はやはり特徴量の開発であり、みんな危機感を持っている様子でした。とはいえ、深層学習による画像認識はこれまでも地道に行われており、ILSVRCのような巨大なベンチマークができたことで初めて日の目を見るようになったわけで、その意味でブレイクスルーを起こした真の立役者はILSVRCそのものであるとも言えます。機械学習研究者もビジョン研究者の努力は非常にリスペクトしているところであり、単に仕事の奪い合いをするのでなく、一緒によいものを作っていくことが本来やるべきところだと強く感じました。
*1:https://code.google.com/p/cuda-convnet/
*2:ClassificationでトップをとったClarifiのチームは、DCNNの特徴をde-convolutionして可視化する手法を提案し、パラメータチューニングを容易としていた点がポイントのようです。ただ、ビデオでの発表であったこともあり最終的にどこがパフォーマンスに効いていたのかはよく分かりませんでした。
*3:上位5クラスの出力に正解が含まれていれば正解とする評価方法
*4:今年のNIPSで論文が出ています