画像を「単語の列」として読むAI|Vision Transformer
文章用に作られたはずの仕組み「Transformer」を、画像にそのまま当てはめたらどうなる?——2021 年の Vision Transformer は、画像を小さなタイルに切って“単語の列”のように扱い、画像認識の常識を塗り替えました。やさしく解説します。
画像を見分ける AI といえば、長らく CNN(畳み込みニューラルネット) の独壇場でした。以前ご紹介した AlexNet や ResNet も CNN の系譜。画像は CNN で、というのが揺るぎない常識だったのです。
一方、文章を扱う世界では Transformer が大成功を収めていました(こちらも以前ご紹介しました)。ここで誰もが思いつきそうで、なかなか本気で試さなかった問いがあります。「文章用の Transformer を、画像にそのまま使ったらどうなる?」——2021 年の Vision Transformer(ViT) は、これを大真面目にやってのけました。
何をした研究なのか
Transformer は本来、単語の列を読むための仕組みです。画像はそのままでは「単語の列」ではありません。そこで ViT は、大胆な発想をします。
- 画像を、**16×16 ピクセルの小さなタイル(パッチ)**に切り分ける
- そのタイルを左上から順に並べ、「単語の列」とみなす
- あとは、文章とまったく同じように Transformer に読ませる
つまり ViT にとって、1 枚の写真は **「小さなタイルが連なった一文」**のようなもの。論文タイトルがしゃれていて、「画像は 16×16 の単語でできている」というのです。
何がすごいのか
驚くべきことに、この素朴なやり方が、画像認識で CNN に匹敵、あるいは上回る成績を出しました。長年「画像には CNN 専用の工夫が不可欠」と考えられてきたのに、文章用の仕組みを“ほぼそのまま”持ってきても通用したのです。
ただし条件がありました。大量のデータで事前学習することです。データが少ないと CNN に分がありますが、ふんだんに学ばせると ViT が本領を発揮し、しかも学習にかかる計算もむしろ効率的でした。
いちばん面白いのはここ
ViT のいちばんの意義は、成績そのものより、**「言葉も画像も、同じ仕組みで扱える」**と示したことです。
これにより、Transformer は AI 界の共通エンジンとしての地位を決定づけました。文章、画像、音声、さらにはそれらを混ぜたマルチモーダル AI まで——分野ごとに専用の仕組みを作るのではなく、ひとつの土台で横断的に扱える時代が来たのです。以前ご紹介した、言葉と画像をつなぐ CLIP や、画像を切り出す Segment Anything も、この流れの上にあります。
ひとつ注意
ViT は万能の置き換えではありません。先に触れたとおり、学習データが潤沢にあって初めて真価を発揮します。データが限られる現場では、CNN や、両者のいいとこ取りをした手法のほうが向くこともあります。道具は、状況に合わせて選ぶのが肝心です。
持ち帰り
「専用の道具」から「共通の土台」へ——。Vision Transformer は、言葉のために生まれた仕組みが画像にも効くと示し、AI の世界を一段シンプルに、そして横断的にしました。技術の“統一”が進む流れを象徴する一本です。
画像認識やマルチモーダル AI の活用のご相談は、お問い合わせからどうぞ。