言葉と画像を同じ地図に並べたAI|画像生成を支えるCLIP
「猫の写真」という言葉と、実際の猫の画像。AI にとって本来はまったくの別物でした。2021 年の CLIP は、4 億組の画像と説明文から両者を“同じ地図”の上に並べ、今の画像生成 AI を支える土台になりました。やさしく解説します。
「猫」という言葉と、ふわふわした猫の写真。私たちはこの 2 つが同じものを指していると、当たり前に結びつけられます。でもコンピュータにとって、文字と画像はまったく別の種類のデータ。両者をつなぐのは、実はとても難しい問題でした。
2021 年、OpenAI が発表した CLIP は、この「言葉」と「画像」をひとつの地図の上に並べてみせた研究です。今あふれている画像生成 AI の、隠れた立役者でもあります。
何をした研究なのか
CLIP の学習方法は、力技でありながら巧妙でした。
- インターネットから、画像と、その説明文(キャプション)のペアを 4 億組集める
- 画像を読む AI と、文章を読む AI を、同時に訓練する
- ねらいはただひとつ——正しい組み合わせ(この画像にはこの説明文)どうしを近くに、間違った組み合わせを遠くに配置すること
これを延々と繰り返すと、画像と言葉が同じ“意味の地図”の上に配置されます。「犬が走っている写真」と「犬が走っている」という文章が、地図上のご近所さんになるイメージです。
何がすごいのか
この地図ができると、不思議なことが起きます。CLIP は、わざわざ専用に訓練していない問題まで、いきなり解けてしまうのです(ゼロショットと呼ばれます)。
たとえば、ある写真が何かを当てたいとき。「これは犬の写真」「これは飛行機の写真」といった候補の文章を用意し、写真と地図上で一番近い文章を選ぶだけ。従来のように「この 1000 種類だけを見分けるよう訓練する」必要がなく、言葉で指定すれば、その場で柔軟に判断できるようになりました。
いちばん面白いのはここ
CLIP の本当の価値は、その後に花開きました。**「言葉と画像を結ぶ共通の地図」**は、文章から絵を描く 画像生成 AI にとって、まさに欠かせない部品だったのです。
「夕暮れの海辺を歩く猫」という文章から絵を作るには、まずその言葉が“どんな見た目”を指すのかを理解できなければなりません。CLIP 的な仕組みは、生成 AI に「言葉の意味を、絵の世界の言葉へ翻訳する」橋を架けました。テキストで画像を操れる今の時代は、この橋の上に立っています。
ひとつ注意
CLIP の地図は、インターネット上の画像とキャプションをそのまま学んだものです。つまり、ネット上にある偏りや思い込み(特定の属性への結びつきなど)も一緒に取り込んでしまいます。便利な反面、その判断を無条件に“中立で正しい”と信じるのは禁物、という点は意識しておきたいところです。
持ち帰り
別々だった「言葉」と「画像」を同じ土俵に乗せる——。CLIP のこの一歩が、文章で絵を操る時代の扉を開きました。複数の種類のデータをつなぐ「マルチモーダル AI」は、これからの大きな潮流です。
画像認識やマルチモーダル AI の活用のご相談は、お問い合わせからどうぞ。