← 記 / Journal に戻る

Transformerに挑む“線形”の新星|状態空間モデルMamba

いまの AI を支える Transformer には「長い文章ほど計算が急激に重くなる」弱点があります。2023 年の Mamba は、文章が長くなっても計算がなだらかにしか増えない別方式で、この弱点に挑む注目の新顔です。やさしく解説します。

Transformerに挑む“線形”の新星|状態空間モデルMamba

いまの生成 AI の主役は、何度も登場している Transformer です。その心臓部「アテンション」は、文中のすべての単語どうしの関係を見渡す強力な仕組みでした。ただ、ここには見過ごせない弱点があります。文章が長くなるほど、計算量が爆発的に増えるのです。

単語の数が 2 倍になると、関係の組み合わせは約 4 倍。10 倍なら約 100 倍——。長い文書や、長時間の音声を扱おうとすると、この“重さ”が大きな壁になります。2023 年に登場した Mamba は、まったく別の発想でこの壁に挑みました。

何をした研究なのか

Mamba が採用したのは、状態空間モデルという考え方です。アテンションのように毎回すべてを見渡すのではなく、「これまでの要点をぎゅっと圧縮した“記憶”を持ち、新しい単語が来るたびに少しだけ更新していく」——人間が文章を一語ずつ読み進める感覚に近い方式です。

ただし、過去の同種の手法には弱点がありました。「どの情報を覚え、どれを忘れるか」が固定的で、文脈に応じた取捨選択が苦手だったのです。Mamba の鍵は、**「今の入力に応じて、覚える・忘れるを動的に選べる」**ようにしたこと(選択的状態空間)。大事な情報はしっかり保ち、どうでもいい部分は受け流す。これで賢さを保ちました。

いちばんすごいのはここ

この方式の最大の利点は、計算量が文章の長さに“なだらかに(線形に)”しか増えないことです。Transformer の「長さの 2 乗」に比べ、長い入力で圧倒的に有利になります。

  • 処理スループットは Transformer の 約 5 倍
  • 30 億パラメータの Mamba が、2 倍のサイズの Transformer に匹敵する性能
  • しかも言語だけでなく、音声やゲノム(遺伝情報)などさまざまな種類の長い列に強い

「賢さ(Transformer 級)」と「長さへの強さ(線形)」を両立させた——ここが大きな注目を集めた理由です。

ひとつ注意

とはいえ Mamba が Transformer を完全に置き換えたわけではありません。今この瞬間も主役は Transformer であり、Mamba は「有力な挑戦者・補完役」という位置づけです。両者のいいとこ取りをする折衷型の研究も活発で、どの方式が長く使われるかは、これからの動向を見る必要があります。

持ち帰り

「みんなが使う定番」にも弱点はあり、それを別の角度から突く挑戦者が現れる——技術の世界の健全な新陳代謝です。Mamba は、AI の土台がまだ進化の途上にあることを教えてくれる、いま追いかけておきたい一本です。

最新の AI 技術動向や活用のご相談は、お問い合わせからどうぞ。


出典