ある日、静まり返った小さな映画館で、無音のショートムービーを観る体験会に参加したことがあります。
映像は美しく、演出も巧みでした。
でも、何かが足りない。
「音が、ない」
俳優の足音も、ドアの開閉音も、風のそよぎもない──それだけで、まるで命の抜けた映像に見えたのです。
私たちは「音」に、どれほど心を預けているのか。
そんな問いに真正面から挑んだのが、テンセントが発表した新技術「Hunyuan Video-Foley(混元ビデオフォーリー)」です。
🎧 AIが”耳”になる──Hunyuan Video-Foley とは何か?
テンセントの Hunyuan Video-Foley は、AI生成動画に「リアルな音」を自動で合成する画期的な技術です。
この技術は「Text-Video-to-Audio (TV2A)」フレームワークと呼ばれ、テキストプロンプトと映像の両方を解析して、画面上のアクションに完璧に同期した高品質なサウンドトラックを生成します。
例えば──
- 歩くときの「コツコツ」という靴音
- 紙をめくる「シャラッ」という音
- 風でカーテンが揺れる「フワッ」という空気の感触
これらは今まで、熟練の「フォーリーアーティスト」がスタジオで丁寧に作っていたものです。
しかし、Hunyuan Video-Foley は映像の内容をAIが理解し、それにふさわしい音を生成します。
例えるなら”映像に耳をつける魔法”。ただの画像だったAI動画が、まるで生きているかのように感じられる理由は、そこに「音の息吹」があるからです。
🎬 なぜ今まで実現できなかったのか?
これまでの動画-音声生成(V2A)モデルが音響面で不足していた最大の理由は、研究者が「モダリティ不均衡」と呼ぶ問題でした。
要するに、AIは実際の映像を見るよりも、与えられたテキストプロンプトに過度に依存していたのです。
例えば、人が歩いていて、カモメが飛んでいる賑やかなビーチの映像があったとしましょう。
でも、テキストプロンプトが「海の波の音」だけだった場合、AIは波の音しか生成しません。
砂の上の足音も、鳥の鳴き声も完全に無視してしまい、シーンが生命感を失ってしまうのです。
加えて、音声品質の低さや、モデルを効果的に訓練するための高品質な映像・音声データの不足も大きな課題でした。
🤖 テンセントの3つのブレークスルー
テンセントの Hunyuan チームは、これらの問題を3つの異なる角度から解決しました:
1. 大規模データセットの構築
100,000 時間に及ぶ映像、音声、テキスト記述の巨大なライブラリを構築しました。
インターネットから低品質なコンテンツを自動で除外し、長い無音部分や圧縮されたぼやけた音声のクリップを取り除いて、AIが最高品質の素材から学習できるようにしました。
2. スマートなアーキテクチャ設計
まず視覚-音声リンクに細心の注意を払い、タイミングを正確に合わせます(靴が舗装に当たる瞬間に足音の「ドスッ」という音を一致させるなど)。
そのタイミングが確立された後、テキストプロンプトを組み込んでシーンの全体的な雰囲気やコンテクストを理解します。
3. 表現アライメント(REPA)訓練戦略
専門のオーディオエンジニアがAIの訓練中に常に監督するような仕組みです。
事前訓練された専門級のオーディオモデルの特徴とAIの作業を比較し、より清潔で豊かで安定した音の生成に導きます。
🎯 実証された成果
テンセントが Hunyuan Video-Foley を他の主要AIモデルと比較テストした結果、音声の成果は明らかでした。
コンピューターベースの指標が優れていただけでなく、人間の聞き手も一貫してその出力をより高品質で、映像により良く一致し、より正確にタイミングが合っていると評価しました。
これは大きな革命です。
なぜなら、プロの映像制作者だけでなく、YouTuber や学生、趣味で映像を作る人々も、高品質な音付き動画を簡単に作れるようになるからです。
🤖 感情をつくる音──AIは人間の感性にどこまで迫れるか?
もちろん、課題もあります。
音には、文化的な背景や感情のニュアンスが詰まっています。
たとえば、同じ「雨の音」でも、悲しさを強調する音と、安らぎを与える音がある。
今後、Hunyuan Video-Foley がどこまで「感情の音」を理解し、再現できるか。
それは、AIと人間の”共演”の可能性を左右する大きな鍵となるでしょう。
🔚 まとめ──音がある世界は、もっと美しい
映像は「目」で楽しむもの。
でも、心を動かすのは「耳」が担っているのかもしれません。
音があるから、物語に深みが生まれ、キャラクターが生き始める。
テンセントの Hunyuan Video-Foley は、そんな”音の魔法”をAIで再現する挑戦です。
フォーリーアートの魔法を自動コンテンツ制作の世界にもたらし、映画制作者、アニメーター、そしてあらゆるクリエイターにとって強力な能力となる可能性を秘めています。
次にあなたが観る動画に、何気ない「シャッ」という音が入っていたら──それは、AIがそっと添えた命の鼓動かもしれません。
参考:Tencent Hunyuan Video-Foley brings lifelike audio to AI video
コメント