2026年5月29日研究ダイジェスト

AIは深くするほど賢い、はずだった｜ResNetが見つけた近道

ニューラルネットは層を深くするほど賢くなる——はずが、ある時から逆に成績が落ちる謎がありました。2015 年の ResNet は「近道（ショートカット）」をひとつ足すだけでこの壁を破り、152 層もの超深層を可能にしました。やさしく解説します。

ディープラーニングの「ディープ（深い）」とは、計算の層を何枚も積み重ねることを指します。素朴に考えれば、層を深くするほど複雑なことを学べて、AI は賢くなりそうですよね。

ところが 2015 年ごろ、研究者たちは奇妙な壁にぶつかっていました。層を深くしていくと、ある時点から逆に成績が悪くなるのです。しかも「複雑になりすぎて過剰に覚えた」わけではなく、訓練そのものがうまくいかない。深くしたいのに深くできない——この謎を鮮やかに解いたのが、Microsoft の Kaiming He らが発表した ResNet（残差ネットワーク） でした。

何が問題だったのか

層を深くすると、学習に必要な“調整の信号”が、何十枚もの層を通り抜けるうちに薄れて伝わらなくなってしまう。すると、奥のほうの層がうまく学習できません。

直感に反する事実もありました。浅いネットワークより深いネットワークのほうが、訓練時の成績まで悪くなることがあったのです。本来、層を増やした分は「何もしない（素通りする）」と振る舞えば、最低でも同じ成績を保てるはず。ところが、その“素通り”すら、ふつうの深いネットワークには学習が難しかったのです。

何をした研究なのか

ResNet のアイデアは、拍子抜けするほどシンプルでした。各ブロックに「近道（ショートカット）」を 1 本足すだけです。

通常の経路：入力をいくつかの層で変換する
近道：入力をそのまま先へ受け渡す

そして両者を合流させます。こうすると、各ブロックが学ぶのは「答えそのもの」ではなく、**「入力に対して、どれだけ手を加えるべきか（＝差分）」**だけになります。これが「残差（residual）」という名前の由来です。

何も足す必要がなければ「手を加えない（差分ゼロ）」と学べばよく、“素通り”が圧倒的に学習しやすくなる。調整の信号も、近道を通って奥までスッと届きます。

何がすごいのか

このひと工夫で、壁は崩れました。

それまで難しかった 152 層もの超深層ネットワークを、安定して学習できるようになった
画像認識の世界大会 ILSVRC 2015 で優勝、誤り率はわずか 3.57%

たとえるなら、長い長い階段の脇に**滑り台（近道）**を付けたようなもの。情報が奥まで楽に行き来できるようになり、「深さ」を初めて素直に味方につけられたのです。

いちばんすごいのはここ

ResNet の「近道でそのまま受け渡す」という発想は、画像認識にとどまりませんでした。実は、いま主流の Transformer をはじめ、現代の巨大な AI のほぼすべてが、この“近道”を内部に組み込んでいます。超巨大なモデルを安定して学習できるのは、ResNet が広めたこの仕組みのおかげ、と言っても過言ではありません。地味な 1 本の線が、AI の大規模化を陰で支えているのです。

ひとつ注意

ResNet は「深さの壁」を取り払いましたが、「深く・大きくすれば何でも解ける」という意味ではありません。深いモデルほど計算資源も学習データも必要になります。あくまで、深さという伸びしろを“使えるようにした”土台技術だと捉えるのが正確です。

持ち帰り

行き詰まりは、たいてい「足し算」ではなく「ちょっとした構造の工夫」で破られます。ResNet の近道は、その好例。派手さはなくとも、後のすべての巨大 AI を支える縁の下の力持ちになりました。

AI 活用や画像解析のご相談は、お問い合わせからどうぞ。

出典

Deep Residual Learning for Image Recognition（He et al., 2015 / arXiv）