波の音も、足音も──RunwayのAIが“感情をまとった映像”を生み出す時代へ

Runway「World Model」と「音付き動画生成」が描く新しい創造のカタチ
映像AIは「動かす」から「世界を理解する」へ
3つの特化型モデルが切り拓く未来
「音のない映画」はもう終わり
1. Gen-4.5が変える未来
「リアルな嘘」をつくる技術と、私たちの責任
世界は、「つくる人」から「つくれるすべての人」へ
最後に
1. 「未来の映画監督」は、あなたかもしれない

Runway「World Model」と「音付き動画生成」が描く新しい創造のカタチ

「こんな映像、どうやって作ったんですか？」

これは、映像クリエイターなら誰しも一度は聞かれたことのある質問かもしれません。
しかし、これからはその答えが少し変わっていきそうです。

「AIが作ってくれたんです」

そんな未来が、もうすぐそこまで来ています。

2025年12月、AI映像生成のパイオニアであるRunway（ランウェイ）が、まったく新しい技術を発表しました。
その名もGWM-1。
さらに、12月初旬にリリースされた最新の動画生成AI「Gen-4.5」に音声生成機能も追加され、映像体験が次の次元へと進もうとしています。

今回はこの革新の正体を、専門用語をなるべく使わずに、初心者でもイメージしやすい形で丁寧に解説します。

映像AIは「動かす」から「世界を理解する」へ

Runwayの新発表の中で最も注目を集めているのが「GWM-1」というWorld Model（ワールドモデル）です。
これは、ただ映像を生成するだけではなく、映像の中の「世界」そのものを理解しようとするAIです。

どういうことか、少し例えてみましょう。

これまでの映像AIは「この人を右に動かして」「カメラをズームインして」といった「命令」には従ってくれますが、その動きの意味までは考えていませんでした。
いわば、言われた通りに動く「操り人形」のようなものです。

しかし、GWM-1は違います。

フレームごとの予測を通じて、物理法則や時間経過における世界の実際の振る舞いを理解したシミュレーションを作り出します。
つまり、現実世界で起こり得るあらゆるシナリオを事前に学習しなくても、世界がどう動くかの内部シミュレーションを持ち、推論し、計画し、行動できるのです。

たとえるなら、舞台装置をただ並べるだけの演出から、物語全体を把握して、物理法則や空間の幾何学、照明までを理解した演出ができる演出家に進化した、そんなイメージです。

3つの特化型モデルが切り拓く未来

RunwayはGWM-1をベースに、3つの特化型バージョンをリリースしました。
GWM-Worlds、GWM-Robotics、そしてGWM-Avatarsです。

GWM-Worldsは、インタラクティブなプロジェクトを作成できるアプリケーションです。
プロンプトや画像参照でシーンを設定すると、空間を探索するにつれて、幾何学、物理法則、照明を理解しながらモデルが世界を生成していきます。
シミュレーションは24fps、720pの解像度で動作します。
ゲーム開発に有用なだけでなく、AIエージェントに物理世界での行動や移動を教えるのにも適しているとRunwayは説明しています。

GWM-Roboticsでは、天候条件や障害物などの新しいパラメータを加えた合成データを活用することを目指しています。
この手法により、ロボットがさまざまなシナリオでポリシーや指示に違反する可能性がある状況を明らかにできるとしています。

GWM-Avatarsでは、人間の行動をシミュレートするリアルなアバターを構築しています。
D-ID、Synthesia、Soul Machines、さらにはGoogleなども、コミュニケーションやトレーニングの分野で使える、リアルに見える人間のアバター作りに取り組んでいます。

Runwayによれば、技術的にはWorlds、Robotics、Avatarsはそれぞれ別のモデルですが、最終的にはこれらすべてを1つのモデルに統合する計画だといいます。

「音のない映画」はもう終わり

Gen-4.5が変える未来

さらにRunwayは、12月初旬にリリースした「Gen-4.5」という最新の動画生成AIに音声生成機能を追加しました。

これ、どれくらいすごいことかというと、想像してみてください。
あなたが「海辺を歩く二人」という動画をAIに生成させたとします。

これまでのAI動画は、いくらリアルな波の映像があっても「音」はありませんでした。
静かすぎる動画って、やっぱりどこか物足りないですよね。

でもGen-4.5では、波の音、風の音、足音、声、すべてが自動でついてくるんです。

まるで、目の前に本当にその場面が広がっているような臨場感。

新しいアップデートでは、ネイティブ音声に加えて、長尺のマルチショット生成機能も追加されました。
ユーザーは、キャラクターの一貫性、ネイティブな対話、背景音、さまざまな角度からの複雑なショットを含む1分間の動画を生成できます。
既存の音声を編集して対話を追加したり、任意の長さのマルチショット動画を編集したりすることも可能です。

これにより、映像制作の世界では「ポストプロダクション（撮影後の編集）」の手間が大幅に減り、誰でも手軽に「完成された映像作品」を作れる時代が始まろうとしています。

Gen-4.5のアップデートは、すべての有料プランユーザーが利用できます。