← 記 / Journal に戻る

ノイズの砂嵐から絵が浮かび上がる|拡散モデルの仕組み

文章を入れると、まるで魔法のように絵が生まれる画像生成 AI。その正体は「ノイズだらけの砂嵐から、少しずつノイズを取り除いていく」という拡散モデルでした。Stable Diffusion を生んだ 2022 年の研究を、やさしく解説します。

ノイズの砂嵐から絵が浮かび上がる|拡散モデルの仕組み

「夕焼けの富士山を油絵風で」と打ち込むと、数秒で絵が現れる。今や当たり前になった画像生成 AI ですが、AI はいったい、どうやって何もないところから絵を“描いて”いるのでしょう

その種明かしが、**拡散モデル(Diffusion Model)**です。そして、この仕組みを誰でも手元で動かせるほど軽くし、Stable Diffusion を生んだのが、2022 年の「潜在拡散モデル」という研究でした。

何をした研究なのか

拡散モデルの発想は、ちょっと変わっています。「絵を壊す手順」を逆再生するのです。

まず学習では、きれいな写真に少しずつノイズ(砂嵐)を加えて、最後は完全なノイズにしていく過程を AI に見せます。そして AI には、その逆——**「ノイズが少し乗った画像から、元のきれいな状態へ一歩戻す」**やり方を覚えさせます。

すると本番では、

  1. まったくのノイズ(砂嵐)から出発し、
  2. 「ノイズを少し取り除く」を何十回も繰り返す

だけで、砂嵐の中からだんだん絵が浮かび上がってくるのです。霧が晴れて景色が見えてくるような感覚に近いかもしれません。「夕焼けの富士山」といった文章は、この“ノイズの取り除き方”を導く道しるべになります(ここで前回紹介した CLIP 的な「言葉と画像をつなぐ」技術が効いてきます)。

いちばんすごいのはここ

拡散モデル自体は以前からありましたが、ひとつ大問題がありました。計算がとても重いのです。高精細な画像をピクセル単位で何十回も処理すると、巨大な計算資源が必要でした。

2022 年の研究の功績は、ここに切れ味のいい一手を加えたことです。ノイズの除去を、細かいピクセルそのものではなく、画像を圧縮した“要点だけの空間(潜在空間)”で行う——これで計算量が劇的に減りました。

たとえるなら、巨大な絵を一筆ずつ直すのではなく、まず小さな下書きの世界で構図を整えてから、最後に高精細へ仕上げるようなもの。この工夫のおかげで、画像生成 AI は研究室の外へ飛び出し、個人の PC でも動く Stable Diffusion として世界中に広まりました。

ひとつ注意

画像生成 AI は強力な一方、学習に使われた画像の著作権や、本物そっくりの偽画像(フェイク)といった課題もはらんでいます。技術の仕組みを理解することは、便利さと危うさの両面を見極める第一歩でもあります。使う場面と権利関係には、いつも気を配りたいところです。

持ち帰り

「ノイズから絵を彫り出す」という意外な発想と、「要点だけの空間で計算する」という効率化。この 2 つが噛み合って、誰もが画像を生成できる時代が来ました。魔法に見える技術も、ほどけば理にかなった手順の積み重ねです。

生成 AI の業務活用のご相談は、お問い合わせからどうぞ。


出典