← 記 / Journal に戻る

AIの脳内にある「概念のツマミ」を回してみた|金門橋クロードの話

AIの“脳”から「ゴールデンゲートブリッジ」に反応する部品を見つけ出し、そのツマミを最大まで回す。するとAIは、何を聞いても自分を金門橋だと言い張るようになりました。Anthropicが3,400万個の「概念」を取り出した解釈可能性研究を、やさしく解説します。

AIの脳内にある「概念のツマミ」を回してみた|金門橋クロードの話

「AI の頭の中は誰にも分からないブラックボックスだ」とよく言われます。では、その中を本当に開けて、特定の“概念”を担当している部品を見つけ、ツマミのように回せるとしたら——?

2024 年に Anthropic が発表した解釈可能性の研究 「Scaling Monosemanticity」 と、その一般公開デモ 「Golden Gate Claude(ゴールデンゲート・クロード)」 は、それを実際にやってのけました。

何をした研究なのか

大規模 AI の“脳”の難しさは、ひとつのニューロン(神経細胞にあたる部品)が、いろんな概念に同時に反応してしまうことです。これでは「どこが何を担当しているか」が読めません。

研究チームは、スパースオートエンコーダという仕組みを使って、この絡まった信号をほどきました。Claude というモデルの中間層から、それぞれが一つの意味にきれいに対応する “特徴(feature)” を約 3,400 万個 取り出すことに成功したのです。

取り出された特徴は、具体的なものから抽象的なものまでさまざまでした。

  • ゴールデンゲートブリッジ」のような具体的な対象
  • 「プログラムのバグ」「内緒ごと」「ある種の差別的表現」のような抽象概念

いちばん面白いところ

ここからが本番です。研究者は「ゴールデンゲートブリッジ」に反応する特徴を見つけ、その “ツマミ”を思いきり強く回しました

すると、Claude は様子がおかしくなります。何を質問しても、話が金門橋に戻ってくる。「あなたは誰?」と聞けば「私はゴールデンゲートブリッジです」と答え、レシピを尋ねても橋の話を始める。自分が あの赤い橋そのものだと信じ込んでしまった のです。

このユーモラスなデモ(Golden Gate Claude として一般にも公開されました)は、ひとつの重大なことを証明していました。特徴は単なる観察結果ではなく、回せば AI の振る舞いが実際に変わる“操作可能なレバー”だった、ということです。

なぜ重要なのか

ツマミを回せるということは、狙って弱めることもできるということです。

  • 「危険物の作り方」や「差別的な発言」に対応する特徴を見つけ、抑え込む
  • なぜ AI がその出力をしたのかを、内部の特徴から説明する

ブラックボックスを「のぞける」だけでなく「手で調整できる」段階に一歩近づいた——。AI の安全性や信頼性を、外側のフィルタだけでなく 内側から 担保する道を示した研究です。

ひとつ注意

3,400 万個といっても、巨大な AI が扱う概念のすべてを捉えたわけではありません。取りこぼしもあり、特徴の解釈には人手の確認も要ります。それでも、「AI の思考を、人間が読める概念の地図に翻訳する」試みが、ここまで実用的なスケールに来たことの意味は大きいものでした。

持ち帰り

AI を安心して使う鍵は、「正しく動くのを祈る」ことではなく、「なぜそう動くのかを説明できる」ことです。金門橋クロードは、笑える見た目の裏で、その未来をちらりと見せてくれました。きっと誰かに話したくなるはずです。

AI の挙動を説明可能にする設計・検証のご相談は、お問い合わせからどうぞ。


出典