キーワード「オンライン最適化」詳細一覧

Home
キーワード一覧
オンライン最適化

オンライン最適化：1件

バンディット手法を用いた推薦技術

知識を獲得しながら累積利得を最大化するオンライン学習技術

ユーザが好むであろうアイテムのお勧め(知識の利用)のみでなく、ユーザの好み情報が多く得られるであろうアイテムのお勧め(知識の獲得)もバランスよく行い、ユーザの累積満足度を最大化するお勧め手法を研究しています。
- 人工データによるシミュレーション実験結果。
  1000×1000(ユーザ,アイテム)ペアから毎ラウンド50ペア選んで
  リコメンデーションメールを送る設定。
  提案手法(UCBVB,UCBPMF)の方が100ラウンド後累積平均評価値が高い。
研究の内容

現在のインターネット社会において、リコメンデーション技術はうまく働けばサービスを提供する側・受ける側の双方に利益をもたらすものです。リコメンデーションサービスは１回きりのものではなく、毎回フィードバックを受けながら繰り返し行うものであり、しかもフィードバックはお勧めしたもののみに対して得られるものです。したがって、フィードバック履歴よりユーザが好むであろうアイテムをお勧め(知識の利用)するのみでなく、フィードバックからユーザの好み情報が多く得られるであろうアイテムもお勧め(知識の獲得)することがその後のお勧め精度を上げるためには重要です。この知識の利用と獲得のバランスをとってユーザ満足度の最大化を試みるのがバンディット手法です。　バンディット手法を用いたお勧め方式の開発を行っています。

研究の詳細へ

中村篤祥教授 Atsuyoshi Nakamura
博士（理学）

情報科学研究院　情報理工学部門　知識ソフトウェア科学分野

北海道⼤学研究者総覧

オンライン最適化：1件

知識を獲得しながら累積利得を最大化するオンライン学習技術

研究の内容

注目シーズ 一覧を見る

注目シーズ一覧を見る