2026年5月29日研究ダイジェスト

ルールを教わらずにゲームを極めたAI｜MuZeroの不思議

囲碁・チェス・将棋、そしてテレビゲーム。MuZero は「ルールを一切教えられないまま」これらを人間超えで攻略しました。世界の仕組みを自分で“想像”して先を読む——その驚きの発想を、やさしく解説します。

将棋を覚えるとき、私たちはまず「駒の動かし方」というルールを教わります。ルールを知らなければ、先を読むことも、勝ち筋を考えることもできません。当たり前の話に思えますよね。

ところが 2020 年、Google DeepMind の MuZero は、その当たり前をひっくり返しました。ルールを一切教えられないまま、囲碁・チェス・将棋、さらにはテレビゲーム（Atari）まで、人間を超えるレベルで攻略してみせたのです。

ここまでの流れ

MuZero には“ご先祖”がいます。

AlphaGo：人間の棋譜とルールを使って囲碁の世界王者を破った
AlphaZero：人間の棋譜は使わず、ルールだけを頼りに自己対戦で囲碁・チェス・将棋を制覇した

ここまでは、いずれも **「ルールは教えてもらう」**のが前提でした。MuZero は、その最後の前提すら外してしまいます。

何をした研究なのか

ルールを知らない AI が、どうやって先を読むのか。MuZero がしたのは、**「世界の仕組みそのものを、自分で学んで頭の中に組み立てる」**ことでした。

「いまこう動かしたら、次はどんな局面になりそうか」を予測するモデルを、プレイ経験から自力で学ぶ
そのうえで、頭の中だけで“もし、こうしたら”という未来を何手も先までシミュレーションする
一番よさそうな手を選んで、実際に動かす

つまり MuZero は、誰にルールを教わったわけでもないのに、**「こう動けば、たぶんこうなる」という自分なりの世界の地図（世界モデル）**を頭の中に持ったのです。

何がすごいのか

実力は折り紙つきでした。

囲碁・チェス・将棋では、ルールを与えられていた AlphaZero と同等の超人的な強さに到達
ルールが複雑で見た目もバラバラな Atari のゲーム群でも当時の最高水準を更新

「ルールを教わったプレイヤー」と「ルールを自分で見抜いたプレイヤー」が、互角に渡り合った——。これは、ルールを明示できない現実の問題にも AI の計画能力を広げられる、という大きな一歩でした。世の中の課題の多くは、将棋のようにきれいなルールブックがあるわけではないからです。

ひとつ注意

MuZero が学ぶ「世界の地図」は、先を読んで得点を上げるのに役立つ範囲で作られたもので、人間のように世界を丸ごと正しく理解しているわけではありません。あくまで「うまく計画するための内部モデル」です。とはいえ、ルールという足場なしで計画できるようになった意味は、とても大きいといえます。

持ち帰り

「ルールは与えられるもの」という常識を外したとき、AI は一段広い世界へ踏み出しました。MuZero は、自分で世界の仕組みを想像し、先を読む——人間の知性に一歩近づいた、示唆に富む研究です。

AI 活用や最適化・計画問題のご相談は、お問い合わせからどうぞ。

出典

Mastering Atari, Go, chess and shogi by planning with a learned model（Schrittwieser et al., Nature, 2020）