ICCV 2013 (2)

中山です。
引き続き、ICCV 2013の発表論文から、いくつか紹介します。

Structured Forests for Fast Edge Detection
Piotr Dollar, C. Lawrence Zitnick
Random forestを構造学習へ拡張し、エッジ検出を行います。連続的なラベルの空間を、information gainが評価できる離散的な空間へマッピングし、ツリーの学習を行います。同様の手法と比べ、スコア関数の定義が必要ないことなどがポイントのようです(あまり詳しくないので間違っているかもしれません)

Style-aware Mid-level Representation for Discovering Visual Connections in Space and Time
Yong Jae Lee, Alexei A. Efros, and Martial Hebert
Visual data miningの研究。時代や場所に固有のスタイル(例えば、その時代の車のタイヤの形状など)をとらえた画像のパッチを自動的にマイニングします。
グループの画像を集めて識別器を構築し、段階的に繰り返していくことで、スタイルの変遷を可視化することができるようになっています。
また、同様のアプローチで、fine-grained visual categorizationにおける識別的な特徴を抽出できることも示しています。

Codemaps Segment, Classify and Search Objects Locally
Zhenyang Li, Efstratios Gavves, Koen van de Sande, Cees Snoek, Arnold Smeulders
積分画像を用い、各局所特徴の反応を保持しておくことで高速な検出を行う手法がC. Lampertらにより提案されていますが、通常のbag-of-wordsでは線形手法識別器を直接適用すると性能が十分に出ないことが問題になります。この研究では、explicit feature mapやFisher vectorなどの線形識別可能な特徴を用いることでパフォーマンスを上げています。

Active MAP Inference in CRFs for Efficient Semantic Segmentation
Xavier Boix, Roderick De Nijs, Sebastian Ramos, Luc Van Gool
一般的なCRFにおけるMAP推定では、各ノードのunary potentialが全て既知である必要があります。この手法では、未知のunary potentialがある場合の推定手法を提案しています。例えば、semantic segmentationなどではunary potentialの計算コストがMAP推定自体に比べずっと大きいので、このようなアプローチが有利になります。

Heterogeneous Auto-Similarities of Characteristics (HASC): Exploiting Relational Information for Classification
Marco San Biagio, Marco Crocco, Marco Cristani
Region covariance descriptorの拡張で、特徴要素間の相関に加えて相互情報量をとることで、非線形な関係性を定量化でき識別性能を向上させることができます。相互情報量をとるために各特徴要素を離散化する必要がありますが、実験的には離散化のビン数はかなり少なくても大丈夫なようです。シンプルなアイデアですが非常に面白いと思いました。

Pedestrian Parsing via Deep Decompositional Network
Ping Luo, Xiaogang Wang, Xiaoou Tang
Deep learningを用いて、歩行者の体の部位をセグメンテーションします。入力は生画像ではなくHOG特徴ですが、オクルージョンを推定する層を明示的に加えている点が面白いです。他にも、既存の特徴を入力として深層学習を行っている研究がいくつかありましたが、ビジョンの分野ではlow-levelな特徴抽出はまだSIFTやHOG等への信頼が大きいのかもしれません。

YouTube2Text: Recognizing and Describing Arbitrary Activities Using Semantic Hierarchies and Zero-Shoot Recognition
Sergio Guadarrama, Niveda Krishnamoorthy, Girish Malkarnenkar, Raymond Mooney, Trevor Darrell, Kate Saenko, UMass Lowell
動画を短いテキストで要約するものです。未知の内容についても、辞書の階層構造を用い上位にさかのぼって、妥当性のある単語で説明を行います。今回の会議では他にも動画への文章付与の発表があり、画像・動画像からの自然言語文生成は一つのジャンルとして確立した印象があります。

Abnormal Event Detection at 150 FPS in MATLAB
Cewu Lu, Jianping Shi, Jiaya Jia
複数の部分空間のスパースな結合を用い、reconstruction errorで異常検出を行います。実際のテスト時の操作は極めて単純なので、高速な検出を行うことができます。部分空間からのreconstruction errorを用いて異常検出を行うアプローチは日本でも広く知られており、興味深いです。

Fast Subspace Search via Grassmannian Based Hashing
Xu Wang, Stefan Atev, John Wright, Gilad Lerman
部分空間の多様体表現であるグラスマン多様体上でのLSHによるハッシング手法を提案しています。これにより、入力が部分空間で表現される問題において高速な検索を実現しています。グラスマン多様体の利用も近年流行しているトピックの一つであるように思います。部分空間法が好きな人にとってはチャンスかもしれません。

Unsupervised Visual Domain Adaptation Using Subspace Alignment
Basura Fernando, Amaury Habrard, Marc Sebban, Tinne Tuytelaars
Unsupervised domain adaptationの有名な手法であるgeodesic flow kernel (GFK)では、ソースとターゲットの部分空間をグラスマン多様体を用いて連続的につなぐものでしたが、この研究では直接フロベニウスノルムが最小となるような線形変換を解析的に得ており、GFKを上回る性能を得ています。

Training Deformable Part Models with Decorrelated Features
Ross Girshick, Jitendra Malik
DPMのコアであるlatent SVMと同様のアルゴリズムを、フィッシャーの線形判別分析をベースにして行うlatent LDAを提案しています。Latent SVMと同等の精度を達成しますが、学習は4倍以上速いそうです。クラス内共分散行列の逆行列でホワイトニングした特徴を使う発想は、exemplar-LDAと同様で、実際同じチームの発表です。

Recognising Human-Object Interaction via Exemplar Based Modelling
Jian-Fang Hu, Sun Yat-sen, Wei-Shi Zheng, Jian-Huang Lai, Shaogang Gong, Tao Xiang
画像中の人間と物体のインタラクションHOI descriptorで表現し、exemplarベースで識別器を構成しています。人間と物体のインタラクションは最近注目されているトピックの一つで、そこにexemplarベースの考え方を取り入れており、いかにも流行の最先端という感じの研究です。

Visual Semantic Complex Network for Web Images
Shi Qiu, Xiaogang Wang, Xiaoou Tang
Web上の膨大な画像を、画像とテキストのそれぞれを使ってクラスタリング(グラフで表現)し、結果を統合して画像検索や認識のための潜在的な空間を導出します。この手の話はマルチメディア系を中心に昔からやられていますが、かなり大規模なグラフを比較的短時間で構築し、実用的なアプリケーションまで提示できている点が評価されているように思いました。


以上、総括すると、今回よく目にしたキーワードは
・Exemplar-base
・Grassmannian manifold
Deep learning
・Domain adaptation
・Attribute
・Human object interaction
・Fine grained categorization
といったところでしょうか(かなり主観が入っていますが)

次回は、併設のワークショップであるImageNet large-scale visual recognition challengeについて報告したいと思います。お楽しみに。

ICCV 2013 (1)

中山です。

遅くなりましたが、先月シドニーで開催されたInternational Conference on Computer Vision (ICCV)の紹介をさせて頂きます。

ICCVは、CVPRと並ぶコンピュータビジョンの分野では最も権威のある国際会議です。CVPRの方は毎年米国で開催されますが、ICCVは隔年でECCVと交互に開催されています。内容的にはどちらも変わらず最高レベルの研究発表が行われますが、雰囲気はCVPRと結構違う印象を受けました。シングルトラックでセッションが組まれていることが大きいと思いますが、質疑応答などは以前参加したCVPRの方がずっと活発であったように感じました*1
いずれにせよ、ビジョンのみならずさまざまな分野の研究者にウォッチされている会議であり、我々としては目指すべき場所の一つです。今回の採択率は久しぶりに30%を超え、少し間口が広がった印象があります。大体いつも25%〜30%程度で推移しており、決して厳しすぎる競争率ではないので積極的に狙っていきたいところです。


(オーラルセッションが行われる講堂。初日は機材トラブルで大変そうでした。)

今回はオーストラリアのシドニーで開催され、中心地のDarling Harbourにあるコンベンションセンターが会場でした。南半球は夏の観光シーズンですが、暑すぎることもなく、温暖で過ごしやすい気候でした*2。時差も二時間で日本からは比較的出張しやすいところですが、物価が非常に高かったので驚きました。なお、この会場ですが、2013年を最後に改装する*3ことになっており、会議期間中は既に閉鎖されているはずだったところを当局にかけあってこの会議にのためだけに空けてもらったそうです(笑)。


(会場外観。サンタクロースが張り付いていましたが、会期途中でなぜか姿を消しました…)

以下、いつものようにいくつか気になった発表を紹介します*4

HOGgles: Visualizing Object Detection Features
Carl Vondrick, Aditya Khosla, Tomasz Malisiewicz, Antonio Torralba
"HOG goggles"の略。画像特徴量(この論文ではHOG)から元の画像を可能な限り復元し、その特徴量を通して結局どのような像を見ているのかを可視化します。識別器が出すfalse positiveは人間にとっては理解に苦しむことがありますが、HOGから再構成された画像は確かに紛らわしい像になっている場合が多いようです。実際、元画像ではなくHOGglesを人間に見せた場合には、HOGによる識別器と比較して識別精度はそれほど良くありません。要するに、特徴量の表現能力がまだまだ足りないということが言えると思います。これまで一般物体認識では、特徴量やアルゴリズムが結局何を見ているのかはブラックボックスになっていることが多かったですが、最近はこのような直感的な可視化の方法も増えています。
この研究では、exemplar LDAで上位にスコアリングされた画像の重みづけによる復元方法がよかったことが示されており、手法的にも興味深いと思いました。

Symbiotic Segmentation and Part Localization for Fine-Grained Categorization
Yuning Chai, Victor Lempitsky, Andrew Zisserman
Fine-grained visual categorization (FGVC) 向けの手法。Deformable part modelによるlocalizationと、saliency map + GrabCutによるセグメンテーションを組み合わせた高精度の物体領域抽出を行うことで、非常に高い識別精度を達成しています。他の研究は一般物体認識まで含めた特徴量の開発に注力しているものが多いですが、この研究はFGVCならではの前提をうまく活用しているように思いました。

Image Set Classification Using Holistic Multiple Order Statistics Features and Localized Multi-kernel Metric Learning
Jiwen Lu, Gang Wang, Pierre Moulin
アルバムのような、複数の画像の集合を識別する問題。集合中の画像の特徴量の高次統計量(モーメント)をmultiple kernel learningで活用していくことで識別精度が大きく向上するという話でした。高次統計量の利用は、有名な高次局所自己相関特徴に通ずるところがあり、個人的に興味深かったです。

From Subcategories to Visual Composites: A Multi-level Framework for Object Detection
Tian Lan, Michalis Raptis, Leonid Sigal, Greg Mori
単なるカテゴリ情報ではなく、組み合わせを考慮したvisual phrasesの有効性は注目されていますが、現実的にはフレーズの数は膨大でありアノテーションを行うことは困難です。この研究では、カテゴリレベルのみの教師から、階層的にサブカテゴリを分割し更にそれら関連性を考慮することで、自動的にvisual phraseを発見していきます。サブカテゴリのクラスタリングにはexemlar-SVM、関係性の学習にはstructured SVMを用いています。

Restoring An Image Taken Through a Window Covered with Dirt or Rain
David Eigen, Dilip Krishnan, Rob Fergus
タイトルの通り、水滴や泥汚れのあるガラス越しの風景を、convolutional neural networkを使いきれいに復元しています。テクニカルな新しさはあまりないような気もしましたが、結果はimpressiveでした。他にも、deep learningを応用した研究が多く見られ、流行を感じました。

SIFTpack: A Compact Representation for Efficient SIFT Matching
Alexandra Gilinsky, Lihi Zelnik Manor
基本的なアイデアは非常にシンプルで、dense samplingの場合はSIFTの4x4の小領域をオーバーラップさせるように保持していれば、データ量は1/16で済むというものです。一応スパースな一般の場合についても拡張はされていますが、ICCVで採択されているのは少し意外に感じました。実験評価は非常に充実しておりよい研究であることは間違いなく、トリビアルと言わせない迫力が重要だと感じました。

Nested Shape Descriptors
Jeffrey Byrne, Jianbo Shi
最近流行しているbinary descriptorの一つで、VGG-Affine データセットでSIFTを超えるパフォーマンスを出しています。Hawaiian earring と呼ばれる構造に従い、階層的に輝度勾配をプーリングしていくところがポイントのようですが、なぜこれほどよい性能が出るかはよく分かっていないとのことでした。プーリングで平行移動や回転への不変性を段階的に入れていくのは重要なポイントであり、バイナリ特徴に限らず一般的に重要な知見ではないかと思いました。

DeepFlow: Large Displacement Optical Flow with Deep Matching
Philippe Weinzaepfel, Jerome Revaud, Zaid Harchaoui, Cordelia Schmid
オプティカルフローの検出は勾配法を前提とする場合、差分が大きい場合の扱いが問題となり、マッチングによるアプローチも必要なります。この研究では、deep convolutional neural networkにより階層的にマッチングをとることで、長距離のフローの推定を可能にしています。ネットワークの構造をうまく利用した方法であり、DCNNがこんなことにも使えるというのは大変面白く感じました。

To Aggregate or Not to aggregate: Selective Match Kernels for Image Search
Giorgos Tolias, Yannis Avrithis, Herv〓 J〓gou
VLADやFisher Vectorのような、局所特徴の統計量に基づく手法と、Hamming embeddingのようなマッチングに基づく手法の統一的な解釈を与え、両者のいいとこどりができる一般化したカーネルを提案しています。

NEIL: Extracting Visual Knowledge from Web Data
Xinlei Chen, Abhinav Shrivastava, Abhinav Gupta
CMUの発表で、Webから自動的に自然言語の概念獲得を行うNever-Ending Language Learner (NELL)の画像版です。さまざまな画像のカテゴリはもちろん、それらの関係性まで自動的に学習することができます。Webから自動的に画像知識を獲得する研究は昔からありますが、ついにここまで来たかという印象を受けます。
種になっているのが既存の画像検索エンジンである点は変わらず、ここで得られるノイジーな画像をどうクラスタリングするかが鍵ですが、ここでもexemplar-LDAによるアプローチがかなり効いているようです。この研究に限りませんが、exemplarベースの考え方が普及したことがブレークスルーにつながっている領域が多いように感じました。


まだまだありますが、ひとまず今日の更新ではここまでとさせて頂きます。

*1:ICCVは権威主義的な面が強く、CVPRの方がフラットなので好きといっている海外の研究者の方が多かったのが印象的でした。この辺の空気感はよく分かりませんが。

*2:半袖だと少し寒いくらいでした。

*3:改築だったかもしれません。

*4:私の専門であるパターン認識に関わる研究に偏っていますが、もちろん会議ではコンピュータビジョンに関わる幅広い最先端の研究が扱われています。

2014年のご挨拶

皆様、明けましておめでとうございます。

昨年は、本格的に研究室が始動して最初の一年となり、非常に刺激に溢れた年でした。慣れないことも多く、関わった方々には多々ご迷惑をおかけしたことかと存じますが、多くの方に暖かくご指導・ご鞭撻並びにご支援を頂き、研究室メンバー一同大きく成長することができたかと存じます。この場をお借りして深く御礼申し上げます。

今年は春にまた修士一年の学生を迎え入れ、人員的にはほぼ充足することになります。また、年度末には研究室の一期生が修士論文を仕上げ、学位審査を迎えます。この一年がしっかり実りあるものになれば、ようやく研究室として立ち上げ後最初のサイクルを終えたと言えるでしょう。引き続き、初めて経験することの多い大変な年になりそうですが、何事も楽しく前向きに取り組み、研究活動を一気に加速させていきたいと思います。

さしあたり、年初から4月くらいまでにメジャーな国際会議の投稿締め切りラッシュが訪れるので、是非学生のみなさんには頑張って欲しいところです。研究者になるにせよそうでないにせよ、国際会議で海外の優秀な学生や研究者と切磋琢磨するというのは一生ものの経験と自信になります。今の時代、将来的に彼らと世界市場で勝負していくことは避けられないわけですし、世界のレベルを学生のうちに体感することは今後必要不可欠になってくると思います。修士から新しく研究を始めて、この時期にまとまった成果を出すのは簡単なことではないのですが、そのあたりは最大限サポートできるように力を入れるつもりです。(私も講義準備の間を縫って投稿の準備を進めているところです。)
このブログも、研究日記といいつつ今のところ会議の報告ばかりになっていますが、今年は自分たちの研究もどんどん紹介していきたいですね。


それでは、本年もどうぞよろしくお願い申し上げます。
皆様のご健康とご多幸をお祈り申し上げます。

中山英樹

中山研 研究室旅行2013 in 静岡

こんにちは。 岡本です。

先日、一泊二日で研究室旅行に行ってきました!
行き先は富士山の世界遺産登録に沸く静岡県

少人数なので移動手段はレンタカー1台。
慣れない早朝集合で寝不足のなか一路東名高速を走ります。

静岡に到着して最初に向かったのは清水港です。
4時間弱の道のりでちょうどお昼時になってたので、ここで腹ごしらえ。
マグロの水揚げ日本一で有名らしく、マグロ料理店が軒を連ねていました。

清水港のとある店には"まぐろいっぱい丼"なる、奇妙なメニューがあるというリサーチを宮谷ツアーコンダクターから聞き、皆それを頼むことに・・・。

"まぐろいっぱい丼"の正体とは、ご飯の上に好きなだけ漬けマグロを乗っけてくれるという、なんとも若者御用達のメニュー(写真参照)でした。

適量を完全に見誤る宮谷氏(上) このあと押し寄せるマグロの恐怖に一同の顔が引きつる(下)

(小一時間ほどかかりましたが、全員無事完食しました。)

マグロとのファイトの後は、世界遺産"三保の松原"へ。車で10分程度移動。
松林越しの富士山が綺麗でした。

松林と富士山と中山研(上) 二次元的手法で富士山を鑑賞する津田氏(下)


三代目羽衣の松と山元氏


この後は日本平という所にある久能山東照宮へ。

ロープーウェイ(上)にのり、東照宮のある久能山に向かいます。

どちらも徳川家ゆかりということで、日光東照宮と大変よく似ていました。


遅い時間になってきたので、一同は今夜の宿に向かいます。
今回の旅館はよもぎ湯さん。
街灯が一本もない山奥にありました。星は綺麗でしたけどね。

名産のマグロやシラスを使った豪華な食事を存分に堪能した(写真参照)後、名前のとおりよもぎの香りがするお風呂をいただきました。

ここでお約束の親睦を深める飲み会を開催。

こちらは中山先生のお土産ー山口県名産日本酒"獺祭"(ダッサイ)。
大層お高いそうで・・・もちろんおいしかったです。

2日目は、今回の旅の目玉のラフティングに向かいました。
ラフティングを提供してくれるのは、シャイニングフィールドさん。

これぞ中山研-研究室旅行の真髄、先生が若いからこそ実現できるハードなアクティビティ!
インストラクターさんも若者ばかりということで結構いろいろやってくれました。

晩夏(秋?)であることに加えて、富士の湧水が合流しているので川の水はすごく冷たい!
しかし容赦なく友人を突き落とし合う阿鼻叫喚。個人的には一番おもしろかったです。


ボートの上で集合写真(上) 俗世の汚れを洗い落とす滝行(下)

ボート上での仁義無き戦いの後は、バーベキューでこの旅行の総仕上げ。

〆には富士宮やきそば作って堪能。

お土産も買って一同帰路につきます。
帰りは事故渋滞にはまりましたが、適宜ドライバーを交代して無事到着。
旅行を通して大きな怪我・病気無く終了し、旅行は大成功であったと言えます。

終わってみればすぐだったな、という印象です。
実に盛りだくさんの内容で大変満足でした。
ありがとう、ツアーコンダクター宮谷。そして、ありがとう静岡県

来年もアクティビティがあるといいなぁ

MIRU-山元

皆さん、こんにちは。山元です。

長かった夏も終わり、ここ最近は、ずいぶん涼しくなりましたね。
キャンパスの銀杏並木も綺麗に色づき、鳴り響いていた虫の音も蝉からコオロギへ。。。季節の変わり目を節々に感じる日々です。(それにしても、銀杏臭半端ないです。笑)

さて、約2ヶ月間という長いようで短い夏休みがあっという間に終わってしまいましたが、皆さん、今年の夏はいかがお過ごしでしたでしょうか。
僕個人の感想を述べますと、色々なことに挑戦した夏ではありましたが、俯瞰して見ると、予定していたタスクの半分程度しかこなせず(特に研究)、反省の残るものとなってしまいました。
休みの有効な時間の過ごし方というのは、なかなか難しいものです。

そんな夏休みですが、具体的にどのようなイベントがあったのかを時系列で簡単に並べてみると、7月終わりから8月初めにかけての国内学会MIRUへの参加に始まり、i-ref棟への引っ越し、レポート提出、合宿、集中講義、勉強会、企業訪問、シンポジウム、シリコンバレーへのインターン、研究室旅行と、多くのイベントが続きました。

しかし、夏休み初めにMIRUに参加してから、もう2ヶ月も経つのかと思うと、月並みですが、時の流れの速さを感じずにはいられません!!
研究室のみんなは1ヶ月以上前に、とっくに感想を書いているので、夏炉冬扇ではありますが、僕もMIRUの報告記事を書かせていただこうと思います。

MIRUは、今回初めての参加だったのですが、自分と同じ分野の研究者の皆さんや研究に触れることができ、非常に有意義な経験でした。
この記事では、僕の興味のある研究分野であるデータマイニングと感性情報処理の研究を中心に、応用先が面白そうな研究をいくつか紹介させていただこうと思います。

ユーザ履歴を利用した潜在トピックによるユーザの画像嗜好のモデリング
片岡香織, 木村昭悟, 村崎和彦, 数藤恭子, 谷口行信
画像検索を行う際、各ユーザの画像に対する好みを考慮した検索結果表示を行うためのモデリングに関する研究
Gistなどの画像特徴を入力として、個々のユーザが好みの画像を選択する過程を潜在トピックモデルによりモデル化する。ここでは、嗜好は画像の前景部分に反映されると考え、あらかじめSilency mapを用いて前景部分と思われる領域を抽出し、その領域の特徴量を量子化して用いる。
この研究では、データセットとしてPinterest*1の画像を用いている。実験の流れとしては、pintesestの各ボードを1ユーザとみなして、各ボードからテスト画像を1枚とってきて嗜好度を計算し、ボード上にあった画像が、他の画像より上位に来るかで嗜好度の推定精度を測る。各個人の感性や嗜好にあった検索システムという、個人的にかなり興味深かった研究。

ソーシャルキュレーションデータを用いた画像コンテクストマイニング
木村昭悟, 石黒勝彦, Alejandro Marcos Alvarez, 片岡香織, 村崎和彦, 山田誠
内容を考慮した(セマンティックギャップを超えた)画像認識・検索のためのコーパスを構築する研究
上の研究と同様、pinterestを用いている。上の研究でもそうだが、データセットとしてPinterestの素晴らしい所は、

  1. ユーザが気に入った画像をpinしているので、そのユーザの嗜好がよく表れている
  2. テーマごとにボードが分かれているので、各ボートに含まれるコンテンツは共通のコンテクストを保持している

1だけであれば、他のSNSでもある程度言えることだが、2が重要。pinterestでは、各ボードごとに、ユーザが一貫した指針に基いて画像を収集・選択しているので、共通するコンテクストを持つ画像群を検出することが可能。この研究では、その利点を利用してコーパスを構築している。具体的には、まず、repin*2を介した画像伝搬をグラフとして表現する。ここで、伝搬を通じて数多くの画像を共有したボードの対は、類似したコンテクストを持つと期待されるので、グラフクラスタリングにより、画像コンテクストの検出ができる。
これも、上の研究同様、ソーシャルデータを用いたかなり興味深い研究だった。

マルチモーダル情報を用いた実世界物体認識
木村大毅,長谷川修
自己増殖型ニューラルネットワーク(GNGとSOMを拡張した追加学習可能なオンライン教師なし学習手法)で学習するロボットを用いた、実世界物体認識に関する研究。
ロボットが持つマルチモーダルセンサ情報をオンライン転移学習する。
マルチモーダル情報を用いる際、属性によって、各モーダルの判別しやすさが異なるため、単純にモダリティを統合しただけでは、属性の判別に不向きなモーダルに関する情報も判別に用いてしまい、認識率の低下を引き起こしてしまうが、この研究では、これらの得意・不得意を、「モダリティと属性の関連度合い」と定義し、学習時に関連度合いも算出し、認識時に関連度合いを活用したモダリティの統合を行うことで、認識率を上げているところがポイント。
実際にデモを見たが、完成度の高さを感じた。

Bag-of-Colorsを用いた食事画像認識
高松幸広, 河村聡一郎, 相澤清晴, 小川誠
食事画像から食事のメニューを自動推定する技術の研究。
食事画像からBag-of-Colorsヒストグラムを生成し、Naive-Bayes Nearest Neighborを用いてマッチングを行う。同じユーザがそれまでに撮影した食事画像をデータベース画像として用いることで、精度を向上させた。認識率にはまだ大きなバラつきがあるが、
東大の相澤先生の研究室の研究で、実際にFoodLogというWebサービスで、大学発ベンチャーとしてビジネス展開しているので、今後の展開に注目したい。

・[[[[snapper:ファッションスナップサイトを用いたコーディネート画像検索システムの提案と実装]]]]
三浦慎也, 相澤清晴
衣服の画像に対して、参考にすべきコーディネート画像を検索することが出来るシステムの研究。
処理の流れは、全コーディネート画像から各領域(アウター、ボトムス等)を抽出した後、各領域から画像特徴量を抽出して、特徴量データを生成。そして、入力(自分のコーディネート画像)に対して特徴量マッチングを行い、検索結果を出力。
これも、相澤先生のところ。正確な領域抽出などハードルは高そうだが、画像のメタデータ等色々絡めると、より面白そう。

顔画像による印象度推定
藤田光洋,伊原康行
顔画像から、見た目の印象度を自動的に数値化する技術の研究。
顔の印象度は、個人の主観に大きく左右されるものなので、正解値を定義するのが非常に難しいと思うが、デモがなかなか面白かった。
デモでは、メイク前後の顔の印象度の比較だったが、個人的には、それが良いか悪いかは置いといて、結婚相手紹介サイトなどで印象度から検索できると面白いと思った。



最後に、おまけではありますが、先に述べましたように、9月半ばにJUAS様のインターンで、シリコンバレーの12企業1大学を視察で回ってきましたので、そこで得た価値を一つ紹介したいと思います。

シリコンバレーでは、新しい事業開発プロセスとして、リーンスタートアップというものが非常に注目され、盛り上がっているそうです。
リーン(lean)というのは、贅肉がなく引き締まっているという意味で、つまり、リーンスタートアップとは、無駄なものを出来る限り削ぎ落としてスピーディーに事業開発を行う、ということです。

具体的に言いますと、「構築-計測-学習」フィードバックループを高速で回していくことで、小さな失敗を繰り返しながら軌道修正して、事業を価値のあるものにしていくという手法です。

具体的に知りたい方は、以下の本などを読んでみて下さい。

リーン・スタートアップ

リーン・スタートアップ

この本によると、イメージとしては、「地図を捨ててコンパスを頼りに進め」ということらしいです。

何をするにしてもスピードが求められる現代ですから、リーンスタートアップの考え方や手法は、スタートアップのみならず研究を進める上においても、とても重要だと感じました。とにかく手を動かさないと、何も始まりませんからね。
このシリコンバレー視察の報告は、またブログやslideshareで皆さんと共有できたらと思います。


先生にもよく言われることですが、このインターンもそうですし、日々の研究も多くの方々の支援があって初めて行うことができます。
少しでも、その支援に報いることができるよう、粛々と邁進していきたいところです。

それでは、長々とまとまりのない文章失礼いたしました。

今回はこの辺で失礼します。

*1:Pinterestとは、画像や動画を貼り付けて共有できるソーシャルキュレーションサービス。ユーザは、ファッション、スポーツなどのテーマごとにボードを作成し、自分の気に入った画像や動画などのメディアコンテンツをpinという形で貼っていくことができる。ピンボードに写真を貼る作業をWebで行うイメージ。

*2:twitterでいうretweetのような機能

BMVC 2013 (三・四日目)

こんにちは。本日のお昼すぎに、無事日本へ帰国しました。
BMVCは今回もよくまとまったよい会議でした。チャンスがあれば来年はぜひ学生に通して欲しいところですね。ちなみに、来年はノッティンガムで開催されるそうです。


ブリストル名物のつり橋)

引き続き、三日目と四日目の研究をまとめて紹介します。

The Complete Rank Transform: A Tool for Accurate and Morphologically Invariant Matching of Structures
Oliver Demetz, David Hafner, Joachim Weickert
LBPの記述において、中心点を基準として周囲の点を二値化するだけでなく、相対的なランクを保存することで性能向上。今回の会議ではこの他にもLBP関連の発表が多かったです。

Unsupervised Object Discovery and Segmentation in Videos
Samuel Schulter, Christian Leistner, Peter Roth, Horst Bischof
動画像から自動的に物体クラスを発見し、セグメンテーションまで行います。挑戦的なタスクで面白いですが、オプティカルフローの大きさで動物体を検出しているのでカメラのエゴモーションに弱かったり、物体数はパラメータとして与えなければならない、などの課題もあります。

Unsupervised (parameter) learning for MRFs on bipartite graphs
Boris Flach, Tomas Sixta
観測される変数(ノード)と隠れ変数が二部グラフの形式で結ばれたMRFのパラメータを推定。これ自体が新しいわけではないですが、疑似尤度に基づくEMアルゴリズムによる新しい推定方法を提案しており、従来手法より早く収束し安定であると主張しています。
MRFにはあまり詳しくありませんが、このようなモデルは使いどころが多そうな気がします。

Parsing Clothes in Unrestricted Images
Nataraj Jammalamadaka, Ayush Minocha, Digvijay Singh, CV Jawahar
自由背景、オクルージョンありの一般画像から人物の服を部位ごとに認識し、セグメンテーションします。Poseletという手法で人体部位の認識を行った後、CRFを用います。

Dense, Auto-Calibrating Visual Odometry from a Downward-Looking Camera
Jacek Zienkiewicz, Robert Lukierski, Andrew Davison
移動ロボットのオドメトリを、下向きに備え付けられ床を映すカメラだけから推定します。画像全体の位置合わせに基づく非常にシンプルな方法ですが、カメラを十分床に近づけておくとけっこううまくいくようです。

Depth really Matters: Improving Visual Salient Region Detection with Depth
Karthik Desingh, Madhava Krishna, Deepu Rajan, CV Jawahar
Depth情報を加えたRGBD-saliencyを提案。2Dのsaliency mapよりだいぶ性能がよいとのことですが、実験は明らかに差が出やすそうなものばかりだったような気がします。
ちなみに、今回の会議ではRGBDを用いたsaliencyネタでもう一件発表がありました。

Oriented pooling for dense and non-dense rotation-invariant features
Wan-Lei Zhao, Guillaume Gravier, Herve Jegou
VLADの改良版であるCVLAD(Covariant-VLAD)を提案。プーリングの際、visual wordに加え局所特徴のスケール・オリエンテーション量子化して用いる。局所特徴レベルでスケール・オリエンテーションの情報を捨てず、大域的に用いることでdense featureの識別能力も生かせ賢い方法だと思いますが、量子化のビン数が増えるので画像当たりの局所特徴数が不足しないかが気になるところです。
ちなみに、この方とはポスター発表の際となり合わせだったのですが、だいぶ客が流れて行ってしまいました。やはりVLAD人気ですね。。

Learning Smooth Pooling Regions for Visual Recognition
Mateusz Malinowski, Mario Fritz
物体認識のパイプラインにおいて、局所特徴の記述方法が精力的に研究されてきた一方、プーリングの方は平均値プーリング、最大値プーリングなどが経験的に使われるだけで十分に検証されてきませんでした。 この研究では、プーリングの重みパラメータを学習させることで、ベースラインに比べて大きく識別精度が向上できることを示しています。

BMVC 2013 (二日目)

今日から本会議が始まりました。
シングルトラックでゆったりとしたタイムスケジュールなので、しっかりと見て回ることができました。いくつか気になったものを紹介します。


(ポスターセッションの様子)

Label embedding for text recognition
Jose Rodriguez, Florent Perronnin
一般画像からの単語(看板など)の認識は、文字識別を出発点とし、CRFなどでボトムアップに統合するアプローチが主流でしたが、この方法では単語全体を一つの特徴ベクトルで表し、対になる画像特徴ベクトルと合わせてmultiview embeddingを行い、全体のコンテクストを最初から用いるアプローチを提案しています。

Fisher Vector Faces in the Wild
Karen Simonyan, Omkar Parkhi, Andrea Vedaldi, Andrew Zisserman
顔認識には従来専用の特徴量が使われてきましたが、物体認識の汎用的な特徴量であるFisher vectorでやってみたら従来手法より良かったようです。
計算コストを度外視すれば、タスクに関わらず密に特徴抽出を行うほうが性能はよいのかも知れません。

A Novel Approach for Efficient SVM Classification with Histogram Intersection Kernel
Gaurav Sharma, Frederic Jurie
ヒストグラムインタセクションカーネル(HIK)はビジョン分野で頻出するカーネルです。サンプル数に対するスケーラビリティを確保するための方法として、陽に近似的な高次元空間を導出するfeature mappingという方法がよく知られていますが、空間計算量が問題になります。この論文では、HIKを用いた際のSVMの主問題を変形し、quasi-complexな目的関数の最大化問題へ帰着させることで、元の空間における線形オーダーの評価を行います。
今のところHIK限定のようですが、このようなアプローチが一般化できれば面白いと思いました。

Fast Explicit Diffusion for Accelerated Features in Nonlinear Scale Spaces
Pablo Alcantarilla, Jesus Nuevo, Adrien Bartoli
ECCV'12で著者らが発表したKAZE descriptorの改良版であるA-KAZE descriptorを提案。マルチスケールにおける検出と特徴記述の双方を工夫し、高速化&バイナリ化。
コード → http://www.robesafe.com/personal/pablo.alcantarilla/kaze.html

FRIF: Fast Robust Invariant Feature
Zhenhua Wang, Bin Fan, Fuchao Wu
こちらも流行りのバイナリ記述子に関する研究。LoGを矩形の組み合わせで近似し、それぞれを積分画像で計算することで高速化。また、バイナリビットを取る際にパターン内外両方の情報をとるように工夫。

Multi-scale Joint Encoding of Local Binary Patterns for Texture and Material Classification
Xianbiao Qi, Yu Qiao, Chun-Guang Li, Jun Guo
異なるスケールで空間的に隣接するLBPの共起をとり、埋め込んだ特徴量を提案。著者の方は特徴の共起を見るというコンセプトで多くの仕事をされており、私もICMEで似たようなことをしていたので話が弾みました。

Multi-view Body Part Recognition with Random Forests
Vahid Kazemi, Magnus Burenius, Hossein Azizpour, Josephine Sullivan
他視点のカメラ映像から、人物(サッカー選手など)の三次元の姿勢を推定。それぞれの映像でrandom forestを用いて二次元の尤度マップを作成したあと三次元的に統合。映像はキャリブレーションされていることが前提ですが、実用性の高いセットアップにおけるデータからかなり高精度に推定ができており驚きました。