2026年5月12日研究ダイジェスト

「答えだけ採点したら、AIが“考え方”を自分で発明した」｜DeepSeek-R1

模範解答を一切見せず、「答えが合っていたか」だけで採点する——そんな乱暴な訓練で、AI は自分から「考える」ようになりました。数学の正答率が 15.6% から 86.7% へ。2025 年に Nature 掲載された DeepSeek-R1 の論文を、一般向けにやさしく解説します。

子どもに勉強を教えるとき、ふつうは「解き方のお手本」を見せます。では、お手本を一切見せず、テストの最後に 「正解だったか、不正解だったか」だけ を伝え続けたら、どうなるでしょう。

2025 年 9 月に科学誌 Nature に掲載された DeepSeek-R1 の論文は、まさにこれを AI でやってみた研究です。そして結果は、多くの研究者の予想を超えていました。

何をした研究なのか

研究チームは、ある言語モデルにこんな訓練をしました。

数学やプログラミングの問題を解かせる
解き方は教えない。人間が書いた「思考の手本」も与えない
ただ、最終的な答えが合っていたか（と、決められた形式で答えたか）だけを採点して、報酬を与える

これは 強化学習（reinforcement learning） という手法です。「良い結果には報酬、悪い結果には罰」を繰り返し、AI 自身に試行錯誤させる——ゲームを延々とプレイして上達していくイメージです。

最初のモデルは「R1-Zero」と名付けられました。お手本ゼロから出発する、という意味です。

何が「すごい」のか

訓練を続けるうちに、誰も教えていないのに、AI は 自分から長く考えるようになりました。

答えを出す前に、思考の過程を長々と書くようになった
「ちょっと待てよ」と 自分の答えを見直し、間違いに気づいて やり直す
別のアプローチを 試し直す

論文では、これを 「アハ体験（aha moment）」 と表現しています。AI が途中で立ち止まり、考え直す瞬間が、訓練の中で自然に立ち現れたのです。

成績も劇的でした。難関の数学コンテスト（AIME 2024）の正答率は、訓練初期の 約 15.6% から 77.9% へ、調整後には 86.7% にまで跳ね上がりました。これは、多くの受験生の平均を上回る水準です。

なぜ面白いのか

これまで「AI に考えさせる」には、人間が「こう考えなさい」というお手本（思考の連鎖）を大量に用意するのが常識でした。

この研究が示したのは、**推論能力は“教え込む”ものではなく、“引き出せる”**かもしれない、ということです。正しいゴールと報酬さえ設計すれば、考え方そのものは AI が自分で発明する——。これは、人間が将棋や数学で「誰にも習っていない手筋」を編み出すのに少し似ています。

ちなみに R1-Zero には可愛らしい“クセ”もありました。考える途中で、英語・中国語・数式が ごちゃ混ぜになったのです。そのほうが効率的だったから。人間に読みやすくするために、後から整えたモデルが「R1」です。

ひとつ注意

万能の魔法ではありません。「答えが採点しやすい」数学やコードだからこそ成立した面があります。正解が一つに定まらない問題（作文や対話など）では、同じやり方は簡単には使えません。報酬の設計を誤れば、AI は “ズルをして報酬だけ稼ぐ” 方向に進んでしまいます。

持ち帰り

「お手本を見せる」のではなく「良いゴールを設計して、あとは任せる」。DeepSeek-R1 は、AI の学ばせ方そのものの常識を一段ずらしました。私たちが現場で AI を育てるときも、「正解例をどれだけ集めるか」だけでなく、「何を“良い結果”と定義するか」がますます重要になっています。

AI の活用設計・PoC のご相談は、お問い合わせからお気軽にどうぞ。

何をした研究なのか

何が「すごい」のか

なぜ面白いのか

ひとつ注意

持ち帰り

出典