2011年6月4日土曜日

【The Learning Behind Gmail Priority Inbox を読んだ】

ちょっと古いけどThe Learning Behind Gmail Priority Inbox を読んだ。
原文はこれ

http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/ja//pubs/archive/36955.pdf

これからは研究関連のことも記していこうと思う。
勉強のために自分なりに訳した。英語の論文をこれからもっと読まねば・・・。

※スピード重視で前から訳しているので順序や訳が変かもしれません。

Abstract

Gmailの優先トレイはユーザーの行動によってランク付けされる。
ユーザーごとに統計モデルを作成する。パーソナライズドされていることが大事。
この研究は、何百万という数を超えるモデルをオンラインで学習することと、それ(の問題)に対する解決手段の適応について言及している。

1.The Gmail Priority Inbox

たくさんのGmailユーザーは一日あたり数十、数百のメールを受信する。優先トレイはそのような過負荷な情報を軽減しようと努める。それは、ユーザーごとの統計モデルとそれらのメールに対してユーザーがどう行動しようとするかに基づいてランク付けされる。
この問題は新しい問題ではない。[3,4]しかしながら、このスケールで、リアルタイムにランキング付けし、ほとんどオンラインで何百万ものモデルの更新を一日に行うということは大いに複雑な問題である。
この挑戦は、

・明示的なラベルなしで、メールの重要性を示すこと
・非定常かつノイズが多いトレーニングデータを扱って学習する方法を見つけること
・トレーニングデータの制限が少ないモデルを構築すること
・テラバイトのユーザーごとの特徴データを蓄積し、学習を進めること
・最後に、分散型でシステム一部に問題が生じても正常な動作を保つ(フォールトトレラント)こと

を示している。

アイデアはGmailのスパム探知[6]から借りてきた。重要なランク付けは、難しい。なぜなら、ユーザーにとって「何が重要なことか」ということは一致しないからだ。そのため、高いレベルでのパーソナライゼーションが必要である。
この結果は最も大きく、最もユーザーに出会うGmailのプリケーションの一つである(となった)。

・・・と、一章を読んだところでわからない単語等を調べているうちに既に訳されたかたのページがいくつかあった。下記を読んで理解が深まった&2章以降を訳す必要がないと気づいたw

http://d.hatena.ne.jp/kisa12012/20110212/1297518746
http://d.hatena.ne.jp/echizen_tm/20110120/1295547335
http://d.hatena.ne.jp/repose/20110108/1294415170

Bigtable
http://www.atmarkit.co.jp/fjava/rensai4/bigtable02/01.html


また読んだらこのブログに挙げます。

0 件のコメント:

コメントを投稿