2026年5月31日研究ダイジェスト

文章から動画を生む「世界シミュレータ」｜Sora

一文の指示から、まるで本物のような動画が生まれる——2024 年に公開された OpenAI の Sora は、世界の見え方そのものを学んだ「世界シミュレータ」への一歩として、大きな衝撃を与えました。やさしく解説します。

「東京の雪の街を歩く女性を、シネマティックに」。たった一文の指示から、本物の映像と見分けがつかないような動画が生まれる——。2024 年、OpenAI が公開した Sora のデモは、世界に衝撃を与えました。

画像を生み出す AI には、私たちはもう驚かなくなっていました（このシリーズでも DALL·E や拡散モデルを紹介しました）。でも動画は、桁違いに難しい。なぜなら、コマからコマへ、時間を通じて辻褄を合わせ続けなければならないからです。

なぜ動画は難しいのか

1 枚の絵なら、見た目が破綻していなければ成立します。でも動画では——

歩いている人の足が、次の瞬間に消えてはいけない
カップを置いたら、ずっとそこにあり続けないといけない
影や反射、ものの動きが、時間を通じて一貫していないと不自然になる

つまり動画生成 AI は、絵のうまさに加えて、「世界がどう振る舞うか」のルールらしきものを踏まえる必要があります。これが長年の難所でした。

何をした研究なのか

Sora の発想は、これまでの点をつなぐものでした。

動画を、**時間と空間に切り分けた小さなかたまり（時空間パッチ）**として扱う。これは ViT が画像をタイルに切ったのと同じ発想を、時間方向にも広げたものです
それを、ノイズから映像を彫り出す 拡散モデルと、共通エンジンの Transformer で生成する
さまざまな長さ・解像度・縦横比の膨大な映像で学習する

こうして Sora は、最大 1 分ほどの、一貫性のある高精細な動画を作り出せるようになりました。

いちばん面白いのはここ

OpenAI が掲げたのは、ただの「動画お絵かき AI」ではありませんでした。技術報告のタイトルは 「世界シミュレータとしての動画生成モデル」。

大量の映像を学ぶうちに、Sora は**「ものが動くと世界はこう変化する」という、世界の見え方の片鱗を内側に獲得しつつある、というのです。以前紹介した、ルールを自分で学んだ MuZero の“世界モデル”とも響き合う考え方です。動画を作ることが、いつか現実をシミュレーションする AI**につながるかもしれない——そんな大きな展望を示しました。

ひとつ注意

Sora はまだ完璧ではありません。公開時のデモでも、物理がときどき破綻する（ものが不自然に消える・すり抜ける）例が示されています。そして、本物そっくりの動画を作れる技術は、フェイク映像という深刻なリスクと表裏一体です。「本物らしさ」が増すほど、見る側の 見極める力と、作る側の良識が問われます。

持ち帰り

文章から動画へ——生成 AI は、静止画の先へと踏み出しました。Sora は、AI が「世界の振る舞い」までも学び取ろうとし始めたことを示す、象徴的な一歩です。便利さと危うさの両面を見据えながら、活用の道を探りたい技術です。

生成 AI の業務活用のご相談は、お問い合わせからどうぞ。

出典

Video generation models as world simulators（OpenAI, 2024 / 技術報告）