2026年5月31日研究ダイジェスト

画像を「単語の列」として読むAI｜Vision Transformer

文章用に作られたはずの仕組み「Transformer」を、画像にそのまま当てはめたらどうなる?——2021 年の Vision Transformer は、画像を小さなタイルに切って“単語の列”のように扱い、画像認識の常識を塗り替えました。やさしく解説します。

画像を見分ける AI といえば、長らく CNN（畳み込みニューラルネット） の独壇場でした。以前ご紹介した AlexNet や ResNet も CNN の系譜。画像は CNN で、というのが揺るぎない常識だったのです。

一方、文章を扱う世界では Transformer が大成功を収めていました（こちらも以前ご紹介しました）。ここで誰もが思いつきそうで、なかなか本気で試さなかった問いがあります。「文章用の Transformer を、画像にそのまま使ったらどうなる?」——2021 年の Vision Transformer（ViT） は、これを大真面目にやってのけました。

何をした研究なのか

Transformer は本来、単語の列を読むための仕組みです。画像はそのままでは「単語の列」ではありません。そこで ViT は、大胆な発想をします。

画像を、**16×16 ピクセルの小さなタイル（パッチ）**に切り分ける
そのタイルを左上から順に並べ、「単語の列」とみなす
あとは、文章とまったく同じように Transformer に読ませる

つまり ViT にとって、1 枚の写真は **「小さなタイルが連なった一文」**のようなもの。論文タイトルがしゃれていて、「画像は 16×16 の単語でできている」というのです。

何がすごいのか

驚くべきことに、この素朴なやり方が、画像認識で CNN に匹敵、あるいは上回る成績を出しました。長年「画像には CNN 専用の工夫が不可欠」と考えられてきたのに、文章用の仕組みを“ほぼそのまま”持ってきても通用したのです。

ただし条件がありました。大量のデータで事前学習することです。データが少ないと CNN に分がありますが、ふんだんに学ばせると ViT が本領を発揮し、しかも学習にかかる計算もむしろ効率的でした。

いちばん面白いのはここ

ViT のいちばんの意義は、成績そのものより、**「言葉も画像も、同じ仕組みで扱える」**と示したことです。

これにより、Transformer は AI 界の共通エンジンとしての地位を決定づけました。文章、画像、音声、さらにはそれらを混ぜたマルチモーダル AI まで——分野ごとに専用の仕組みを作るのではなく、ひとつの土台で横断的に扱える時代が来たのです。以前ご紹介した、言葉と画像をつなぐ CLIP や、画像を切り出す Segment Anything も、この流れの上にあります。

ひとつ注意

ViT は万能の置き換えではありません。先に触れたとおり、学習データが潤沢にあって初めて真価を発揮します。データが限られる現場では、CNN や、両者のいいとこ取りをした手法のほうが向くこともあります。道具は、状況に合わせて選ぶのが肝心です。

持ち帰り

「専用の道具」から「共通の土台」へ——。Vision Transformer は、言葉のために生まれた仕組みが画像にも効くと示し、AI の世界を一段シンプルに、そして横断的にしました。技術の“統一”が進む流れを象徴する一本です。

画像認識やマルチモーダル AI の活用のご相談は、お問い合わせからどうぞ。

出典

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale（Dosovitskiy et al., ICLR 2021 / arXiv）