Loading AI tools
Googleの子会社ディープマインドが開発した人工知能 ウィキペディアから
Deep Q-Network(略称:DQN[1])とは、Googleの子会社DeepMindが2015年に発表した、電子ゲームをプレーする、Q学習と畳み込みニューラルネットワークを組み合わせた強化学習のエージェントである。Atari 2600の49個中29ゲームにおいて人間以上のスコアを獲得できた[1][2]。
深層学習(畳み込みニューラルネットワーク)と強化学習(Q学習)を組み合わせたアルゴリズムであるDQNで学習したエージェントは、ゲームのルールを教えていない場合でも、どのように操作すれば高得点を目指すことができるのかを判断することができる[3]。この際に、今までの経験をもとにトレーニングを行う「experience replay」と呼ばれるアルゴリズムが大きく貢献していることが分かった[1]。
あるプログラムはAtari 2600の49種類のゲーム中43種類で従来の人工知能による得点を上回り、29のゲームではプロゲーマーと同等またはそれ以上のパフォーマンスを見せた[1]。特にブロック崩しでは、400回プレイするとボールの取りこぼしがなくなり、600回のプレイの後には次々と攻略法を生み出し、高得点を取るようになった[2]。またもっとも上達したピンボールでは人間の25倍のスコアを取った[4]。
これらの研究成果は、Nature電子版に、2015年2月26日付で掲載された[5][6]。また、翌年の2016年2月4日にAsynchronous Advantage Actor-Critic (A3C)を発表し、学習効率が改善した[7]。更にその翌年の2017年10月6日に、2015年~2017年に発表されたDQNに対する改善手法6手法を組み合わせたRainbowを発表し、更に学習効率が改善した[8]。
なお、2008年の時点で、日本の別のグループが、実ロボット (AIBO)の行動学習タスクにおいて、画像入力の5層全結合ニューラルネットワークを用いた強化学習 (Q学習)をすでに使っている[9]。また、2001年の時点には、画像入力の多層全結合ニューラルネットワークを用いた強化学習 (Actor Critic)を使って、シミュレーション上でロボットの行動学習をさせている[10]。
開発元のDeepMind社は2011年に設立され、2014年にGoogleによって5億ドルで買収された人工知能 (AI)関連のベンチャー企業で[11][12]、買収後Google傘下でAtari 2600のゲームをプレイさせ、AI開発を続けた[13]。
DQNを用いて学習したプログラムは、従来の人工知能とは違い、ゲームのルールをあらかじめ教わることなく全てランダムで操作を行った。そのため、パックマン風のゲーム(ミズ・パックマン)ではスコアを伸ばせず、数秒先の事でも考えることができないというDQNの弱点が示されている[13]。これは、ランダムな操作では得点を得ることが難しいので、システムが学習できなかったため[14]。
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.