こだわり屋に行きました!

こんにちは。玉那覇です。

M1数名で赤門前の居酒屋「こだわりや」に行ってきたので、レポートしたいと思います。
唐揚げがおいしい店とのことなので、今回は唐揚げ食べ放題(1時間1,080円)に挑戦しました。

http://d.hatena.ne.jp/nlab_utokyo/files/IMAG0052.jpg?d=.jpg

揚げたての唐揚げです。一つ一つのサイズが大きくなかなかボリュームがあります。
ワインと唐揚げのおいしい店を自負するだけあり、味も美味しいです。

なんやかんやの流れで僕、岩瀬、富樫 vs 岩本の大食い対決をすることになりました。
僕らは普通の量食べれば勝てますが、岩本君は3倍の量を食べなければ勝てません。
注文した唐揚げが来る前にさらに追加の注文をする、という小技を使いながらハイペースで
唐揚げを胃袋に押し込んでいきます。

ところで皆さんこの野菜の名前が何かわかりますか?
http://d.hatena.ne.jp/nlab_utokyo/files/IMAG0051.jpg?d=.jpg
岩本君はこの野菜をサンチョと呼ぶらしいです。流石です。

そんなサンチョ岩本氏もそろそろ限界が近い様子。
気がつけば箸の動きが鈍くなり、この世の終わりみたいな顔をしています。

http://d.hatena.ne.jp/nlab_utokyo/files/IMAG0054.jpg?d=.jpg

フォアグラの伝統的な生産手法としてにガヴァージュというものがあります。
ヒルやガチョウの肝臓を肥大させるために無理やり大量の餌を食べさせるという手法ですが、
今の岩本君は正にガヴァージュされるアヒルのような心境に違いありません。

結局この日岩本君は24個の唐揚げを平らげてしまいました。
翌日、彼が腹痛に見舞われたことは言うまでもないでしょう。

中山研 研究室旅行2014 in 千葉

こんにちは、中山研の岩本です

先日10月、我々中山研は千葉県へ研究室旅行へいきました!!
去年の研究室旅行は西の静岡だったとのことで、今回は東へいくことにしました!

朝早く集合して、眠そうにしている人がいるなかで
車を二台レンタルし千葉へ向けて出発しました。

始めの目的地はハーバーサーキットです。
http://d.hatena.ne.jp/nlab_utokyo/files/CIMG0290.JPG?d=.jpg
ここは千葉県有数のゴーカート場です。
今回は10人を2グループに分けてミニGPを行いました!!!

http://d.hatena.ne.jp/nlab_utokyo/files/CIMG8767.jpg?d=.jpg
レース前の勇姿

http://d.hatena.ne.jp/nlab_utokyo/files/CIMG8798.jpg?d=.jpg
レース開始

http://d.hatena.ne.jp/nlab_utokyo/files/CIMG8802.jpg?d=.jpg
ゴール!!!!

http://d.hatena.ne.jp/nlab_utokyo/files/CIMG8818.jpg?d=.jpg
最後には各グループの優勝者がトロフィー・メダルを受け取り、

http://d.hatena.ne.jp/nlab_utokyo/files/CIMG8820.jpg?d=.jpg
記念撮影をして終わりました!!楽しかったです!!

http://d.hatena.ne.jp/nlab_utokyo/files/CIMG0294.JPG?d=.jpg
次にみんなお腹が空いたので八千代の活き活き屋という海産物食べ放題のお店にいきました。

http://d.hatena.ne.jp/nlab_utokyo/files/CIMG0291.JPG?d=.jpg
寿司や蛤やウニカキサザエがいくらでも食べられるので
フードファイト大好き中山研はみなずっと食べていました!

そして、その日のイベントを終えた我々は亀山温泉ホテルに泊まって
温泉に浸かりながらレースの疲れを落として
楽しくコンパして、寝ました。


2日目は千葉の海釣りーーーーーーーーー!!!!!
のはずだったんですが、雨が降りました。。。
この日は台風です。。。

なのでかわりに鯉釣りができる釣り堀こと
釣り堀太郎で釣りをしました。
http://d.hatena.ne.jp/nlab_utokyo/files/CIMG0296.JPG?d=.jpg

釣った魚に応じてポイントカードをもらえて
帰り際にポイントの合計を景品と変えられるタイプの釣り堀でした。
たくさん釣ろうと頑張ったのですが
なかなか釣るコツがつかめなくて夢中になってしまい
最終的には30分延長してまでつりをしていました。
心ゆくまで釣りができて満足です!

http://d.hatena.ne.jp/nlab_utokyo/files/CIMG0298.JPG?d=.jpg
ここでもまた記念写真

最後にBBQをやりましたーーー!!!
僕は今まで生きてきてBBQをしたことがないんです。
そしてこの旅行の幹事でもあります。
この立場を利用してBBQを企画にねじ込んだのですが
二度目ですがこの日は台風が来ていました。。。
http://d.hatena.ne.jp/nlab_utokyo/files/CIMG0309.JPG?d=.jpg

ですがBBQ場の方が気を利かせてくれて
鉄板と椅子まわりに雨避けを設置してくださったので
火が消えること無くBBQを強行することができました。
http://d.hatena.ne.jp/nlab_utokyo/files/CIMG0306.JPG?d=.jpg

http://d.hatena.ne.jp/nlab_utokyo/files/CIMG0305.JPG?d=.jpg
食材を切る中山研

火がついていたのに寒くて辛かったですが
最後の焼きそばがとってもおいしかったです!!

そして全ての企画を終えてレンタカー場に帰りました。
誰一人トラブル・事故無く帰ることができました。
これもひとえに中山研の皆さんのおかげです
ありがとうございました。

まだ見ぬ来年の旅行幹事の当番さん
頑張ってください!

RecSys'14

中山です。ご無沙汰しております。

今週は、米国シリコンバレーで開催中のACM Conference on Recommender Systems (RecSys)という会議に参加しています。この会議はその名の通り、データマイニング系の中でも応用よりで特に推薦システムに特化しており、分野ではトップ会議の一つです。採択率は、long paperが35/152=23.0%、short paperでも20/82=24.4%となかなか狭き門だったようです。
今回は、M2の山元君が最終日のRecSysTVというワークショップで、画像特徴量を用いたコンテンツベースド動画推薦について発表しました。
http://recsys.acm.org/recsys14/


ポスター会場の様子。バンケットと同時に実施されましたがみんな熱心に議論していました。


RecSysTVワークショップで発表中の山元君。最終日の遅い時間でしたが聴講者が多く、興味持ってくれた方も多かったようです。


例年それほど規模の大きい会議ではなかったようですが、参加者数は着実に増えており、ホテルの会場は少し手狭な印象を受けました。応用分野の会議なので企業からの発表やスポンサリングが多く、非常に活気にあふれた会議でした。シリコンバレーという場所の良さもあったのかもしれません。

一方、日本からの発表は少なく、少々寂しい感じがしました。私自身はコンピュータビジョンが専門なので少々アウェーな感じではありましたが、前職ではかなり近いこともやっていたのでいろいろ懐かしく拝見しました。こういったマネタイズに関わるところも情報処理産業を下支えする大事なところなので、企業がやるべき応用と割り切らず、一つのサイエンスとしてさまざまな分野の研究者で盛り上げていくことが必要ではないかと思いました。米国では広告サイエンス等含めそのあたりがうまく機能しているところが強さの大きな理由の一つではないかと感じた次第です。


以下、個人的に特に面白かった発表を少しだけ紹介します。なお、本会議の発表のうち、著者の同意があるものはYoutubeチャンネルで公開されているようです。
https://www.youtube.com/playlist?list=PLaZufLfJumb9A95nS5AmY6G5mqYnwIfZX

Beyond Clicks: Dwell Time for Personalization
Xing Yi, Liangjie Hong, Erheng Zhong, Nanthan Nan Liu, and Suju Rajan
Yahoo! Labsの発表で、今回のベストペーパーです。推薦や広告システムの効果を測るにはクリック率を見るのが一般的ですが、ここではページの滞留時間で効果測定を行うことを提案し、そのためのサーバサイド・クライアントサイドでの実装と実験を行っています。確かに、クリックには至らなくても興味があるものはそれなりの時間見ていることもありそうなので、今まで見逃されていた微妙なユーザの反応が測定できるようになるかも知れません。アイデアは単純で今までなかったのが不思議なくらいですが、さまざまなデバイスを統合的に扱うための工夫を入れるなど、完成度が高い研究だと感じました。

A Methodology for Learning, Analyzing, and Mitigating Social Influence Bias in Recommender Systems
Sanjay Krishnan, Jay Patel, Michael J. Franklin, and Ken Goldberg
実際に推薦システムを運用すると、ソーシャルバイアスが大きな問題になります。例えば、周りのひとがいいスコアをつけているアイテムには自分も何となくいいスコアをつけやすくなる、というような現象です。このため、もともと評判のよいものがより評価を集めるrich gets richerの傾向がどうしても現れるようです(逆も然り)。学術研究ではこのような泥臭い部分はとりあえず無視して手法開発に走りがちですが、現実に即した問題にちゃんとスポットライトが当たっているのはとてもよいことだと思いました。

Question Recommendation with Constraints for Massive Open Online Courses
Diyi Yang, David Adamson, and Carolyn Penstein Ros〓
オンライン講義で、質問する学生と回答する学生のマッチングを行うものですが、この際に、回答する学生の専門性が合致していること、特定の学生に負担が集中しないこと(負荷分散)、などの制約条件を加えて最適化します。具体的には、一般的なmatrix factorizationによってrelevanceを算出した後、制約付きフロー最大化の問題に置き換えているようです。アプリケーション自体は新しくなくても、現実的に重要な制約条件をうまく定式化して解いている研究が高く評価されているように思いました。

GASGD: Stochastic Gradient Descent for Distributed Asynchronous Matrix Completion via Graph Partitioning
Fabio Petroni and Leonardo Querzoni
Matrix factorizationは協調フィルタリングのコアであるため、推薦システムにおいて現在最も重要な数理手法であると言えます。本会議でも一つセッションができており、他と比べてかなり手法よりの発表が多かったように思います。
この研究では、graph partitioningによるデータ分割を用いた非同期型のSGDによる行列補完法を提案しており、他手法に比べて収束が速いことを売りにしていました。このあたりは詳しくないので何とも言えませんが、けっこうパラメータの調整が大変そうな印象も受けました。

A Framework for Matrix Factorization Based on General Distributions
Josef Bauer and Alexandros Nanopoulos
これもmatrix factorizationのセッションでの発表の一つです。従来のprobabilistic matrix factorizationではデータに正規分布を仮定しており、拡張もいくつかの定型的な分布に限られていましたが、この研究では任意の分布を適用可能にするための拡張を行っています。とは言いつつ、実際はそれなりに制約があるので、あくまで実用上の一般的な範囲で、ということのようです。

Speeding Up the Xbox Recommender System Using a Euclidean Transformation for Inner-Product Spaces
Yoram Bachrach, Yehuda Finkelstein, Ran Gilad-Bachrach, Liran Katzir, Noam Koenigstein, Nir Nice, and Ulrich Paquet
Microsoftの発表。ユーザへのアイテムの推薦は、協調フィルタリングにおける潜在空間において、ユーザベクトルとアイテムベクトルの内積をスコアとし、ソートすることが基本になりますが、アイテムの数が多いと現実的な時間内での実行が不可能になります。
この研究では、内積計算+ソートの処理をユークリッド空間上での最近傍探索の問題にうまく変換し、近似最近傍探索手法(ここではPCA-Treeと呼ばれるデータ構造)を導入することで高速な処理を実現しています。手法の面白さもさることながら、Xboxの中でもこのような基本的な処理が動いているんだなあと印象深く感じました。

SSII-富樫

富樫です。

遅くなりましたが、岩本くん、玉那覇くんの報告に続いて僕もSSII2014の見学報告をします。

SSIIの一日目はチュートリアルでした。王道の画像処理の話から、認識問題に役立つ機械学習
それらを実行するための効率的な並列処理技術など、広い範囲の内容が扱われていました。

一つ目は、千葉大学総合情報センターの川本先生による"いまさら聞けないグラフィカルモデル入門"。
ベイジアンネットワークやマルコフ確率場はなんだかよく見かける割にしっかりとやっていたわけではなかった僕にとっては
とってもわかりやすくて、面白く聞かせて頂きました。
川本先生がhead-to-headを"ややこしい人"と呼んでいたのはクスリと笑いました。

二つ目は、東工大の田中正幸先生による"見えない画像を見るための2次元再構成"。
劣化モデルに対して、超解像、ぶれ復元、デノイジングという工学的に必要とされる処理を一旦定式化してから、
それを解決するためのいろいろな手法を紹介されていました。
自然画像の事前分布が実は小さいところに収まっているという話は知らなかったので、なるほどと思いました。
特に興味深かったのは、自然画像データベースから得られた低解像度のパッチ辞書と高解像度のパッチ辞書の
それぞれ異なるスパース係数のカップリングを学習することで、低解像度画像から高解像度の画像を構成するという事例ベースの超解像の話でした。

三つ目は、名城大の堀田先生による"機械学習の基礎とコンピュータビジョン応用"。
多変量解析からSVMDeep Learningまでと広い範囲を一時間半で行うと聞いていたので、
Deep Learningについては流石に少し触れる程度かなと思っていたら、半分くらいの時間を使って
流行りのConvolution Neural Networkからその要素的な技術まで詳しく説明されていました。
企業の方も多くお越しになるのだそうなSSIIにおけるチュートリアルという場で、
このような構成に堀田先生がされたということは、やはりCNNへの注目度は研究のみならず産業レベルでも高まっているのだと思います。
多変量解析やSVMの説明もとてもわかりやすくて、大変興味深かったです。

四つ目は、名工大の福嶋慶繁先生による"マルチコアを用いた画像処理"。
画像処理だと特にCUDAプログラミングをベースとしたGPU処理というのが盛んに利用されている中で、
あえてマルチコアCPUやSIMDによる更なる性能向上の可能性を紹介していました。
並列化コンピューティングのデザインパターン(Map, Reduction, Stencil, Scan, Fork-join, Pile-line)
を使いながら実際の簡単な画像処理のどのような部分がそれに適応できるのかを詳しく説明していました。
終始ジョークを交えつつの発表で、内容共に刺激的な発表でした。

SSII-玉那覇

那覇です。

先日、パシフィコ横浜にて画像センシングシンポジウム(SSII'14)の見学をさせ
ていただきました。この分野の学会を見学するのは初めてです が、SSIIではデ
モンストレーション発表の枠があり、その場で成果物が動くところを見ることが
できるという点が特に面白いと感じました。また、 ポスターセッションの枠も
あり、全体的に発表をする側の人と見る側の人がインタラクティブに接する機会
が多く設けられているというように思いまし た。

では、今回見学させていただいた数々の興味深い研究のうち、その一部を紹介さ
せていただきたいと思います。


・局所特徴量のペアを用いた画像のカテゴリ識別
植木 一也, 俵 直弘, 白石 洋平, 小林 哲則

 SIFTによって得られた局所特徴量をもとに特徴量のペアをつくることで、共起
情報を含むような特徴量を用いるカテゴリ識別の手法を提案。ペア の組み合わ
せ方は複数のパターンがあり、各パターンに対して Bag-of-Features によって
エンコーディングを行います。識別器は各パターンごとに用意されており、それ
ぞれの識別器から得られた確率の平均値が最終的な識別結果となりま す。実験
ではペアにした特徴量を用いた提案手法が、従来の単体の手法よりも高い精度で
識別を行えることが示されています。
 実験では2x2の領域内でペアを作った場合の結果より、拡張した3x3の領域内で
ペアを作った場合の方が高い精度が得られていましたが、単純に 4x4、5x5、と
いった具合にさらに領域を拡張した場合や、ペアではなく三つ組、四つ組のよう
に組み合わせる特徴量の数を大きくするとどういう 影響があるのかが個人的に
気になる部分でした。


・螺旋状特徴による三次元物体の位置・姿勢推定
吉村裕一郎, 青木公也

 三次元物体を検出するための手法である螺旋状特徴SSF(Spiral Sampling
Feature)を回転・角度変化に対して頑健にする研究。SSFは物体表面の任意の点
を中心として、中心から螺旋状に取得した近傍の点の法線ベクトルと 中心点の
法線ベクトルのなす角を基にした、波形として表現される特徴量。対象物体の一
部から得られたSSFのうち、中心から離れた螺旋状の一部を 使うことで回転変化
に対応させ、螺旋の同一周上の連続した波形の一部を切り出し探索シーン上の
SSFと位相合わせを行うことで、物体の角度を推定 しています。
 法線ベクトルのなす角を用いるという点が三次元ならではで面白く、特徴量を
波形として表現することで位相合わせによる物体の角度の推定が行える ように
なっているところも興味深い点だと思います。


・インスタント3D復元による位置情報付き画像データベース構築とその利用
鳥居秋彦, 井上優希, 董亜飛, 杉浦貴行, 奥富正敏

 位置情報付き画像データベースを使って、撮影した画像をクエリとする検索
ベースの位置推定を行う研究。提案しているシステムでは、インスタント 3D復
元によって写真を撮影したカメラの位置と向きを推定して位置情報付き画像デー
タベースを構築しており、このデータベースに対して別途撮影し た画像をクエ
リとして画像検索を行うことで、撮影位置を推定することができるようになって
います。
 撮影位置情報付きデータベースの構築には特別な撮影装置が用いられることが
多いようですが、提案しているシステムでは一般的に入手可能なカメラ のみを
撮影装置として使ってデータベースを構築していることがポイントのようです。

SSII-岩本

はじめまして、岩本です。
今年の4月から中山研究室に所属しました。
研究室では仲間に恵まれており
研究や遊びに没頭する日々を送っています。

自己紹介はこれくらいにして
中山研究室の活動報告を行います。
6月11日(水)から13日(金)にかけて行われた
第20回画像センシングシンポジウムことSSII2014にて
中山先生はポスター発表とオーガナイズドセッション
修士2年の先輩である岡本さんと津田さんはポスター発表をしました。
http://www.ssii.jp/

私を含め何人かのM1は見学させていただいたので、行ってみた感想を話そうと思います。

一番印象に残ったのはポスター発表やデモンストレーションが
聴講者の質問等も盛んに行われていて堅苦しい感じがなく、活気もあったことです。

私は去年別の研究室に所属していて、そこで見学させていただいたシンポジウムは
最初っから最後までずっと講演づくしで正直しんどかったのですが、
SSIIでは講演もあればポスター発表や名刺交換が行われており
自分が抱いていたシンポジウムのイメージとはまったく違ったので
こういうタイプのものもあるのかと勉強になりました。

それでは興味を持った発表についていくつか紹介をします。


・ Deep Convolutional Neural Network による手形状領域の抽出
山下隆義(中京大学)、綿末太郎(とめ研究所)、山内悠嗣(中部大学)、藤吉弘亘(中部大学)

手形状の領域を畳み込みニューラルネットワークを用いて学習させるというものです。
CNNのモデルはよく見る形なのですが、教師データが入力画像中の手形状領域を
正値にして他を0にするという方法をとっていました。
この方法は画像に対しての物体の位置検出にも使えそうで応用の幅を感じました。
SSIIオーディエンス賞を取得した発表であり、
それほどみんながCNNへの関心があるのだろうと思います。


・対話的能動学習による超高速ビッグデータ解析
木村大毅(東京工業大学)、水野俊一郎(東京工業大学)、長谷川修(東京工業大学)

自己組織化マップという大脳皮質の視覚野を模したニューラルネットワークを拡張した
オンライン教師なし学習手法であるSOINNを紹介していました。
入力情報をクラスタリングするデモンストレーションを行っており
非常に高速で耐ノイズ性や学習における事前知識を必要としないといった長所を持つので
使い勝手のよさそうな学習器だなという印象を受けました。
SOINNで検索すればクラスタリングをしている様子の動画が簡単に見つかると思います。


・拡張現実感を用いた携帯端末向け多指タイピングインタフェース
樋口政和(埼玉大学)、相樂悟(埼玉大学)、小室孝(埼玉大学)

SFっぽくて個人的に好きな内容です。
携帯端末上に映っているキーボードの位置に指を合わせて
タイピングのように指を動かすとキーボード入力をしてくれるというものです
カメラに映った指をオプティカルフローで認識し、指を折り曲げるジェスチャをタイピングとして検知するのがこのインターフェースのアイデアだそう です。
精度が70%で隣のキーに誤作動してしまうらしいため、改善していくとおっしゃっていました。
デモンストレーションをやっていたら真っ先に見にいきたいと思った発表でした。


ここであげているものは紹介したい発表のほんの一部であり
他の方々も本当に面白い研究をなさっていました。
今回は見学しているだけの立場だったのですが
来年には発表する側の人間として参加したいと思ったシンポジウムでした。

ICCV-ILSVRC 2013

前回に引き続き、ImageNet Large-scale Visual Recognition Challenge (ILSVRC)についてリポートします。
http://image-net.org/challenges/LSVRC/2013/iccv2013.php

 ILSVRCは2010年から始まった大規模画像認識のコンペティションであり、ImageNetのラベル付データの一部を用いて実施されています。当初から120万枚の画像から1000クラスのカテゴリ識別を行うclassificationタスクが行われていますが、最近はdetectionのほうに中心的な興味が移っています。特に、今年からは従来の中心的なコンペティションであったPascal VOCが引退しこちらへ一本化され、Pascalと同じ形式で200クラスの物体検出を行うdetectionタスクが追加されています。また、Fine-grained visual categorizationに特化したコンペも併設で開催されました。今後、画像認識におけるフラッグシップのコンペティションとしての地位を更に高めていくものと思われます。

 さて、多くの方がご存知の通り、昨年度のILSVRCでトロント大のHinton先生のチームがdeep learningで圧勝し、研究者の間に非常に大きな衝撃が走りました。これを受け、他の多くの分野と同様にコンピュータビジョンの分野においてもdeep learningの大きな波が訪れています。今年はどのような展開になるのか、非常に注目されていました。
 結果としては、大方の予想通り、deep convolutional neural network (DCNN)がほぼ上位を独占しました。全員が使っていたかは定かではありませんが、発表していたチームのスライドには毎回DCNNの図が登場し、見ているほうも苦笑いといった雰囲気でした。ただ、DCNN自体の手法的なアップデートはほとんどなく、前回の優勝チームが出しているソフトウェアであるcuda-convnet*1をいかに早く使いこなし、チューニングをどれだけ行ったかで差がついているようでした。そういう意味では、あまり面白みの無い結果であったと言えそうです*2。ただ、トップのチームの結果では、1000クラスの識別ながらトップ5*3でのaccuracyが90%弱と、驚異的なレベルに達しています。

 従来の特徴量によるアプローチとしては、OxfordのZisserman先生が、Fisher vectorを多層化したdeep Fisher networkを発表していました*4。プーリングをローカルに留めたFisher vectorを畳み込みつつ次元圧縮し、これを次の層への入力として更にFisher vectorをコーディングするというものです。従来のパイプラインでも、DCNNと同じように多層化すれば相応に識別精度が向上することが示されています。このような深層学習的な発想はビジョンの分野にも昔からあり、古くはECCV'06のHyperfeaturesで注目を浴びており、私も昨年のBMVCで極めて近い内容の発表をしましたので興味深かったです。とはいいつつ、最終的な結果はDCNNとのlate fusionで出しており、性能的にはDCNNの寄与が圧倒的に大きいので、実用上どれほど有効かはちょっと苦しいところです。
 DCNNを用いずに善戦していたのは、detectionの新しい手法で、本会議でも発表のあったregionletsでした。これは、検出窓に大して大きさ・位置を正規化した相対的なsub-region (regionlets)を窓内に用意し、それらの特徴をプーリングして用いるものです。Descriptor自体は何を使ってもよく、既存の特徴量でもよいし、DCNNから得られる特徴を使った場合は更に性能が上がることも示されていました。感覚的にはDCNNがやっていることとも似ているのですが、検出窓に対してちゃんと正規化を行っていることや、空間的に離れた位置のregionletsもとれることが効いてるのかなと感じました。

 なお、昨年度の議論では、DCNNの学習結果はどれくらい汎用性があるのか、という点が最も重要な課題として提起されていましたが、この部分への取り組みも多く始まっています。先行しているのは、UC BerkeleyのDarrell先生のところのDecaf/Caffe*5と呼ばれるソフトウェアで、ImageNetのデータで学習したDCNNの中間層のレスポンスを特徴として抽出するものです。これを使って他のベンチマーク(例えばCaltech-101)などで従来と同じように学習・識別を行うと、既存の特徴量と比較して圧倒的によい性能を示すことが分かっています。もちろん、ベンチマーク外のデータを使っているわけなので、従来のルールからすれば反則となるわけですが、実用性の観点からするともはやそのようなベンチマークに閉じた考え方自体がナンセンスな時代に入っているのかも知れません。
 ちなみに、FGVCのサブタスクでもこのソフトウェアが登場していますが、Bird/DogなどImageNet上でも比較的データが充実していると思われるドメインに関してはDecafのパフォーマンスがよく、そうでないドメインについては従来のFisher vector等が上回るという、直感どおりの結果になっています。


 最後のパネルでは著名な研究者によるディスカッションが行われ、deep learningの猛威について話題になりました。これまでのビジョン研究者の中心的な仕事はやはり特徴量の開発であり、みんな危機感を持っている様子でした。とはいえ、深層学習による画像認識はこれまでも地道に行われており、ILSVRCのような巨大なベンチマークができたことで初めて日の目を見るようになったわけで、その意味でブレイクスルーを起こした真の立役者はILSVRCそのものであるとも言えます。機械学習研究者もビジョン研究者の努力は非常にリスペクトしているところであり、単に仕事の奪い合いをするのでなく、一緒によいものを作っていくことが本来やるべきところだと強く感じました。

*1:https://code.google.com/p/cuda-convnet/

*2:ClassificationでトップをとったClarifiのチームは、DCNNの特徴をde-convolutionして可視化する手法を提案し、パラメータチューニングを容易としていた点がポイントのようです。ただ、ビデオでの発表であったこともあり最終的にどこがパフォーマンスに効いていたのかはよく分かりませんでした。

*3:上位5クラスの出力に正解が含まれていれば正解とする評価方法

*4:今年のNIPSで論文が出ています

*5:http://caffe.berkeleyvision.org/