2026年5月21日研究ダイジェスト

AIの脳内にある「概念のツマミ」を回してみた｜金門橋クロードの話

AIの“脳”から「ゴールデンゲートブリッジ」に反応する部品を見つけ出し、そのツマミを最大まで回す。するとAIは、何を聞いても自分を金門橋だと言い張るようになりました。Anthropicが3,400万個の「概念」を取り出した解釈可能性研究を、やさしく解説します。

「AI の頭の中は誰にも分からないブラックボックスだ」とよく言われます。では、その中を本当に開けて、特定の“概念”を担当している部品を見つけ、ツマミのように回せるとしたら——？

2024 年に Anthropic が発表した解釈可能性の研究 「Scaling Monosemanticity」 と、その一般公開デモ 「Golden Gate Claude（ゴールデンゲート・クロード）」 は、それを実際にやってのけました。

何をした研究なのか

大規模 AI の“脳”の難しさは、ひとつのニューロン（神経細胞にあたる部品）が、いろんな概念に同時に反応してしまうことです。これでは「どこが何を担当しているか」が読めません。

研究チームは、スパースオートエンコーダという仕組みを使って、この絡まった信号をほどきました。Claude というモデルの中間層から、それぞれが一つの意味にきれいに対応する “特徴（feature）” を約 3,400 万個 取り出すことに成功したのです。

取り出された特徴は、具体的なものから抽象的なものまでさまざまでした。

ここからが本番です。研究者は「ゴールデンゲートブリッジ」に反応する特徴を見つけ、その “ツマミ”を思いきり強く回しました。

すると、Claude は様子がおかしくなります。何を質問しても、話が金門橋に戻ってくる。「あなたは誰？」と聞けば「私はゴールデンゲートブリッジです」と答え、レシピを尋ねても橋の話を始める。自分が あの赤い橋そのものだと信じ込んでしまった のです。

このユーモラスなデモ（Golden Gate Claude として一般にも公開されました）は、ひとつの重大なことを証明していました。特徴は単なる観察結果ではなく、回せば AI の振る舞いが実際に変わる“操作可能なレバー”だった、ということです。

ツマミを回せるということは、狙って弱めることもできるということです。

ブラックボックスを「のぞける」だけでなく「手で調整できる」段階に一歩近づいた——。AI の安全性や信頼性を、外側のフィルタだけでなく 内側から 担保する道を示した研究です。

3,400 万個といっても、巨大な AI が扱う概念のすべてを捉えたわけではありません。取りこぼしもあり、特徴の解釈には人手の確認も要ります。それでも、「AI の思考を、人間が読める概念の地図に翻訳する」試みが、ここまで実用的なスケールに来たことの意味は大きいものでした。

AI を安心して使う鍵は、「正しく動くのを祈る」ことではなく、「なぜそう動くのかを説明できる」ことです。金門橋クロードは、笑える見た目の裏で、その未来をちらりと見せてくれました。きっと誰かに話したくなるはずです。

AI の挙動を説明可能にする設計・検証のご相談は、お問い合わせからどうぞ。