画面を見るだけでTVゲームを覚えたAI|深層強化学習の原点
ルールも操作方法も教えず、ただ画面のドット絵と「スコア」だけを与える。それだけで AI はブロック崩しを自力で攻略し、人間も知らなかった裏技まで編み出しました。2015 年の DQN、深層強化学習の原点をやさしく解説します。
新しいテレビゲームを始めるとき、私たちはとりあえず触ってみて、「こう動かすと点が入るな」と体で覚えていきます。説明書を読まなくても、なんとなく上達しますよね。
2015 年、Google DeepMind の DQN(Deep Q-Network) は、これをそっくりそのまま AI でやってのけました。ルールも操作方法も一切教えず、画面のドット絵とスコアだけを渡す。それだけで、AI はいくつものレトロゲームを自力でマスターしてしまったのです。
何をした研究なのか
DQN に与えられたのは、人間がプレイするときと同じ情報だけです。
- 画面の映像(粗いドット絵)
- 操作できるボタン(ただし、どれが何の操作かは教えない)
- スコア(これを増やすのが目的、という手がかりだけ)
AI は最初、でたらめにボタンを押します。たまたまスコアが上がると「いまの動きはよかったらしい」と学び、下がれば「よくなかった」と学ぶ。この**試行錯誤の繰り返し(強化学習)**を、画像を読み取るディープラーニングと組み合わせたのが DQN です。
うまく学習させるための工夫も効いていました。過去の経験をいったん貯めておき、ランダムに思い出して学び直す**「経験の再生」**や、目標がブレないよう少し遅れて更新する仕組みなどです。
何がすごいのか
DQN は、49 種類もの Atari ゲームで学習し、その多くで人間のプレイヤーを上回りました。1 つのゲーム専用に作り込んだのではなく、同じ仕組みのまま、さまざまなゲームに通用したことが衝撃でした。
中でも語り草なのが、ブロック崩しです。DQN は上達の果てに、**ボールを壁の横から上に通し、ブロックの裏側で勝手に大量得点させる“トンネル戦法”**を自分で発見しました。誰も教えていない高度な攻略法を、試行錯誤だけで編み出したのです。
いちばん面白いのはここ
DQN のすごさは「ゲームが上手」なことではなく、「生の映像を見て、試行錯誤しながら、目的に向かって行動する」という枠組みを成立させたことです。
これは、私たちが新しいことを覚えるプロセスにとても近い。だからこそ DQN は 深層強化学習という分野の出発点になり、のちの囲碁の AlphaGo や、ルールすら自分で学ぶ MuZero へとつながっていきました。ゲームは、AI が現実で行動する力を鍛えるための“練習場”だったのです。
ひとつ注意
DQN が得意だったのは、反射神経的にスコアを伸ばすタイプのゲームでした。一方で、ずっと先のごほうびを見据えて長い計画を立てるような課題は苦手で、当時うまく解けないゲームもありました。試行錯誤で学ぶ方式は強力ですが、何でも解ける万能薬ではない、という点は押さえておきたいところです。
持ち帰り
「教え込む」のではなく「自分で試して学ばせる」。DQN は、その方式が現実の複雑な入力(生の映像)でも通用すると示した、記念碑的な研究です。今の行動する AI・ロボット制御の源流をたどると、ここに行き着きます。
AI 活用や強化学習・最適制御のご相談は、お問い合わせからどうぞ。