RecSys'14

中山です。ご無沙汰しております。

今週は、米国シリコンバレーで開催中のACM Conference on Recommender Systems (RecSys)という会議に参加しています。この会議はその名の通り、データマイニング系の中でも応用よりで特に推薦システムに特化しており、分野ではトップ会議の一つです。採択率は、long paperが35/152=23.0%、short paperでも20/82=24.4%となかなか狭き門だったようです。
今回は、M2の山元君が最終日のRecSysTVというワークショップで、画像特徴量を用いたコンテンツベースド動画推薦について発表しました。
http://recsys.acm.org/recsys14/


ポスター会場の様子。バンケットと同時に実施されましたがみんな熱心に議論していました。


RecSysTVワークショップで発表中の山元君。最終日の遅い時間でしたが聴講者が多く、興味持ってくれた方も多かったようです。


例年それほど規模の大きい会議ではなかったようですが、参加者数は着実に増えており、ホテルの会場は少し手狭な印象を受けました。応用分野の会議なので企業からの発表やスポンサリングが多く、非常に活気にあふれた会議でした。シリコンバレーという場所の良さもあったのかもしれません。

一方、日本からの発表は少なく、少々寂しい感じがしました。私自身はコンピュータビジョンが専門なので少々アウェーな感じではありましたが、前職ではかなり近いこともやっていたのでいろいろ懐かしく拝見しました。こういったマネタイズに関わるところも情報処理産業を下支えする大事なところなので、企業がやるべき応用と割り切らず、一つのサイエンスとしてさまざまな分野の研究者で盛り上げていくことが必要ではないかと思いました。米国では広告サイエンス等含めそのあたりがうまく機能しているところが強さの大きな理由の一つではないかと感じた次第です。


以下、個人的に特に面白かった発表を少しだけ紹介します。なお、本会議の発表のうち、著者の同意があるものはYoutubeチャンネルで公開されているようです。
https://www.youtube.com/playlist?list=PLaZufLfJumb9A95nS5AmY6G5mqYnwIfZX

Beyond Clicks: Dwell Time for Personalization
Xing Yi, Liangjie Hong, Erheng Zhong, Nanthan Nan Liu, and Suju Rajan
Yahoo! Labsの発表で、今回のベストペーパーです。推薦や広告システムの効果を測るにはクリック率を見るのが一般的ですが、ここではページの滞留時間で効果測定を行うことを提案し、そのためのサーバサイド・クライアントサイドでの実装と実験を行っています。確かに、クリックには至らなくても興味があるものはそれなりの時間見ていることもありそうなので、今まで見逃されていた微妙なユーザの反応が測定できるようになるかも知れません。アイデアは単純で今までなかったのが不思議なくらいですが、さまざまなデバイスを統合的に扱うための工夫を入れるなど、完成度が高い研究だと感じました。

A Methodology for Learning, Analyzing, and Mitigating Social Influence Bias in Recommender Systems
Sanjay Krishnan, Jay Patel, Michael J. Franklin, and Ken Goldberg
実際に推薦システムを運用すると、ソーシャルバイアスが大きな問題になります。例えば、周りのひとがいいスコアをつけているアイテムには自分も何となくいいスコアをつけやすくなる、というような現象です。このため、もともと評判のよいものがより評価を集めるrich gets richerの傾向がどうしても現れるようです(逆も然り)。学術研究ではこのような泥臭い部分はとりあえず無視して手法開発に走りがちですが、現実に即した問題にちゃんとスポットライトが当たっているのはとてもよいことだと思いました。

Question Recommendation with Constraints for Massive Open Online Courses
Diyi Yang, David Adamson, and Carolyn Penstein Ros〓
オンライン講義で、質問する学生と回答する学生のマッチングを行うものですが、この際に、回答する学生の専門性が合致していること、特定の学生に負担が集中しないこと(負荷分散)、などの制約条件を加えて最適化します。具体的には、一般的なmatrix factorizationによってrelevanceを算出した後、制約付きフロー最大化の問題に置き換えているようです。アプリケーション自体は新しくなくても、現実的に重要な制約条件をうまく定式化して解いている研究が高く評価されているように思いました。

GASGD: Stochastic Gradient Descent for Distributed Asynchronous Matrix Completion via Graph Partitioning
Fabio Petroni and Leonardo Querzoni
Matrix factorizationは協調フィルタリングのコアであるため、推薦システムにおいて現在最も重要な数理手法であると言えます。本会議でも一つセッションができており、他と比べてかなり手法よりの発表が多かったように思います。
この研究では、graph partitioningによるデータ分割を用いた非同期型のSGDによる行列補完法を提案しており、他手法に比べて収束が速いことを売りにしていました。このあたりは詳しくないので何とも言えませんが、けっこうパラメータの調整が大変そうな印象も受けました。

A Framework for Matrix Factorization Based on General Distributions
Josef Bauer and Alexandros Nanopoulos
これもmatrix factorizationのセッションでの発表の一つです。従来のprobabilistic matrix factorizationではデータに正規分布を仮定しており、拡張もいくつかの定型的な分布に限られていましたが、この研究では任意の分布を適用可能にするための拡張を行っています。とは言いつつ、実際はそれなりに制約があるので、あくまで実用上の一般的な範囲で、ということのようです。

Speeding Up the Xbox Recommender System Using a Euclidean Transformation for Inner-Product Spaces
Yoram Bachrach, Yehuda Finkelstein, Ran Gilad-Bachrach, Liran Katzir, Noam Koenigstein, Nir Nice, and Ulrich Paquet
Microsoftの発表。ユーザへのアイテムの推薦は、協調フィルタリングにおける潜在空間において、ユーザベクトルとアイテムベクトルの内積をスコアとし、ソートすることが基本になりますが、アイテムの数が多いと現実的な時間内での実行が不可能になります。
この研究では、内積計算+ソートの処理をユークリッド空間上での最近傍探索の問題にうまく変換し、近似最近傍探索手法(ここではPCA-Treeと呼ばれるデータ構造)を導入することで高速な処理を実現しています。手法の面白さもさることながら、Xboxの中でもこのような基本的な処理が動いているんだなあと印象深く感じました。