AIの脳内にある「概念のツマミ」を回してみた|金門橋クロードの話
AIの“脳”から「ゴールデンゲートブリッジ」に反応する部品を見つけ出し、そのツマミを最大まで回す。するとAIは、何を聞いても自分を金門橋だと言い張るようになりました。Anthropicが3,400万個の「概念」を取り出した解釈可能性研究を、やさしく解説します。
「AI の頭の中は誰にも分からないブラックボックスだ」とよく言われます。では、その中を本当に開けて、特定の“概念”を担当している部品を見つけ、ツマミのように回せるとしたら——?
2024 年に Anthropic が発表した解釈可能性の研究 「Scaling Monosemanticity」 と、その一般公開デモ 「Golden Gate Claude(ゴールデンゲート・クロード)」 は、それを実際にやってのけました。
何をした研究なのか
大規模 AI の“脳”の難しさは、ひとつのニューロン(神経細胞にあたる部品)が、いろんな概念に同時に反応してしまうことです。これでは「どこが何を担当しているか」が読めません。
研究チームは、スパースオートエンコーダという仕組みを使って、この絡まった信号をほどきました。Claude というモデルの中間層から、それぞれが一つの意味にきれいに対応する “特徴(feature)” を約 3,400 万個 取り出すことに成功したのです。
取り出された特徴は、具体的なものから抽象的なものまでさまざまでした。
- 「ゴールデンゲートブリッジ」のような具体的な対象
- 「プログラムのバグ」「内緒ごと」「ある種の差別的表現」のような抽象概念
いちばん面白いところ
ここからが本番です。研究者は「ゴールデンゲートブリッジ」に反応する特徴を見つけ、その “ツマミ”を思いきり強く回しました。
すると、Claude は様子がおかしくなります。何を質問しても、話が金門橋に戻ってくる。「あなたは誰?」と聞けば「私はゴールデンゲートブリッジです」と答え、レシピを尋ねても橋の話を始める。自分が あの赤い橋そのものだと信じ込んでしまった のです。
このユーモラスなデモ(Golden Gate Claude として一般にも公開されました)は、ひとつの重大なことを証明していました。特徴は単なる観察結果ではなく、回せば AI の振る舞いが実際に変わる“操作可能なレバー”だった、ということです。
なぜ重要なのか
ツマミを回せるということは、狙って弱めることもできるということです。
- 「危険物の作り方」や「差別的な発言」に対応する特徴を見つけ、抑え込む
- なぜ AI がその出力をしたのかを、内部の特徴から説明する
ブラックボックスを「のぞける」だけでなく「手で調整できる」段階に一歩近づいた——。AI の安全性や信頼性を、外側のフィルタだけでなく 内側から 担保する道を示した研究です。
ひとつ注意
3,400 万個といっても、巨大な AI が扱う概念のすべてを捉えたわけではありません。取りこぼしもあり、特徴の解釈には人手の確認も要ります。それでも、「AI の思考を、人間が読める概念の地図に翻訳する」試みが、ここまで実用的なスケールに来たことの意味は大きいものでした。
持ち帰り
AI を安心して使う鍵は、「正しく動くのを祈る」ことではなく、「なぜそう動くのかを説明できる」ことです。金門橋クロードは、笑える見た目の裏で、その未来をちらりと見せてくれました。きっと誰かに話したくなるはずです。
AI の挙動を説明可能にする設計・検証のご相談は、お問い合わせからどうぞ。