2026年5月31日研究ダイジェスト

文章から絵を生み出した最初の衝撃｜DALL·E

「アボカドの形をした安楽椅子」——そんな実在しないものまで、文章で指示するだけで AI が描いてみせる。2021 年の DALL·E は、言葉から画像を生み出す時代の幕を開けた、記念碑的な研究です。やさしく解説します。

「アボカドの形をした安楽椅子」。そんな家具、世界のどこにも売っていません。でも 2021 年、OpenAI の DALL·E は、この一文を読んで、それらしい椅子のイラストを何枚も描いてみせました。実在しないものを、言葉の指示だけで形にする——多くの人が「AI がここまで来たのか」と驚いた瞬間でした。

いまや当たり前になった「文章から画像を生成する AI」。その時代の扉を開いたのが、この DALL·E です。

何をした研究なのか

DALL·E のアイデアは、意外なほど“言語 AI 的”でした。当時すでに、GPT のような AI が「文章の続きを次々と書く」のは得意でした。DALL·E は、その仕組みを画像にも応用したのです。

画像を、細かな“部品（画像トークン）”の連なりとして表す
すると画像も、文章と同じように **「部品が並んだ列」**として扱える
そこで、「文章 → そのあとに続く画像の部品列」を、ひと続きの文章のように生成させる

文章を読んで「次の単語」を予測するのと同じ要領で、DALL·E は **「この説明文に続く絵は、こんな部品の並びになるはず」**と、画像を一片ずつ描き出していきました。約 120 億個のパラメータを持つ巨大なモデルです。

何がすごいのか

DALL·E が衝撃的だったのは、学習時に一度も見たことのない、ありえない組み合わせまで描けたことです。

「アボカドの形をした安楽椅子」
「チュチュを着て犬を散歩させる大根の赤ちゃんのイラスト」

こうした突飛なお題に対し、DALL·E は言葉の意味を組み合わせて、それらしい絵をひねり出しました。単に学習画像を貼り合わせたのではなく、概念どうしを掛け合わせる力を見せたのです。これは「AI に創造性のようなものがあるのでは」と、世界を沸かせました。

いちばん面白いのはここ

DALL·E が証明したのは、**「言葉と画像は、地続きで扱える」**ということでした。文章を生成する技術の延長線上で、絵まで生み出せる——この発見が、その後の生成 AI ブームに火をつけました。

ここまでの研究ダイジェストの点が、つながってきます。言葉と画像を同じ地図に並べた CLIP、ノイズから絵を彫り出す 拡散モデル、そしてこの DALL·E。これらが組み合わさって、いま私たちが使う「文章を打つだけで高品質な絵が出てくる」サービスが生まれました。DALL·E は、その最初の号砲だったのです。

ひとつ注意

文章から画像を作る技術は、便利な反面、**著作権や、本物そっくりの偽画像（フェイク）**といった課題と隣り合わせです。また、学習データに含まれる社会的な偏りを、生成物が反映してしまうこともあります。技術の登場に驚くだけでなく、どう使うかの良識が、いっそう問われる時代になりました。

持ち帰り

「言葉で絵を描く」という、少し前なら魔法に思えたことが、DALL·E をきっかけに現実になりました。技術の系譜をたどると、今あふれる画像生成サービスが、こうした一歩ずつの積み重ねの上にあると分かります。

生成 AI の業務活用やマルチモーダル AI のご相談は、お問い合わせからどうぞ。

出典

Zero-Shot Text-to-Image Generation（Ramesh et al., 2021 / arXiv）