あなたの家の WiFi ルーター、実は”見えている”かもしれない──東京の研究者が開発した「壁越し透視技術」の全貌

想像してみてください。
あなたの家の WiFi ルーターが、まるで目を持っているかのように、部屋の中で何が起きているのかを「見ている」としたら──。

SF映画のワンシーンのような話ですが、実はこれ、もう夢物語ではありません。
東京科学大学の研究チームが発表した「LatentCSI」という技術は、私たちが普段何気なく使っている WiFi の電波から、驚くほど鮮明な画像を生み出すことに成功したのです。

カメラがなくても、壁の向こう側にいる人の姿勢や動きを”描き出す”。
しかも、その人のプライバシーを守りながら。
そんな魔法のような技術が、どのように実現されたのか。今日は、その物語をやさしく紐解いていきましょう。

WiFi の電波は、実は「おしゃべり」だった
1. これまでの限界──粗い映像と複雑な仕組み
天才的なひらめき──「すでにある巨人の肩に乗る」
1. 「通訳」を育てるだけでいい
シンプルな3ステップで魔法が起きる
実験結果が証明した圧倒的な性能
1. 実験その1：歩き回る人を追跡する
2. 実験その2：多様なポーズも自然に再現
言葉で画像を操る──テキスト編集の魔法
1. プライバシーという”聖域”を守る設計
この技術がもたらす明るい未来
諸刃の剣──濫用への警戒も必要
未来への扉は、静かに開いている

WiFi の電波は、実は「おしゃべり」だった

私たちの周りを飛び交っている WiFi の電波。
インターネットに接続するためだけのものだと思っていませんか？　
実は、この電波、部屋の中を通り抜けるとき、そこで起きていることをたくさん”記憶”しているんです。

例えるなら、WiFi の電波は目に見えないメッセンジャーのようなもの。
部屋の中を走り抜けるとき、そこにある家具、壁、そして動いている人の体にぶつかって、その情報を「指紋」のように刻み込んでいきます。

この「指紋」を専門用語でCSI（Channel State Information：チャネル状態情報）と呼びます。
CSI は、電波がどのように変化したかを細かく記録した、いわば”電波の日記”なのです。

これまでの限界──粗い映像と複雑な仕組み

でも、この日記を読み解いて画像にするのは、想像以上に困難でした。

これまでの研究では、CSI から人の姿勢を推定したり、呼吸を感知したりすることはできていました。
しかし、高解像度の画像を生成するとなると、話は別です。

従来の手法では、GAN（敵対的生成ネットワーク）という、2つのAIを競わせる複雑な仕組みを使っていました。
これは、まるで芸術家と評論家を同時に育てるようなもの。
時間もかかるし、うまく育てるにはかなりの工夫が必要だったのです。

しかも、画像の解像度は 64×64 ピクセル程度が限界。
今のスマートフォンのカメラで撮った写真が数千万画素であることを考えると、まだまだ粗い映像でした。

天才的なひらめき──「すでにある巨人の肩に乗る」

LatentCSI の研究チームは、ここで画期的なアイデアを思いつきます。

「ゼロから画像生成のAIを育てるのではなく、すでに完璧に訓練された画像生成AIの力を借りよう」

彼らが目をつけたのは、Stable Diffusion という、すでに世界中で使われている超優秀な画像生成AIでした。
このAIは、文章を入力するだけで美しい画像を描き出す、いわば”芸術の天才”です。

例えるなら、これは天才画家のアトリエを借りるようなもの。
自分で絵の描き方をゼロから学ぶのではなく、すでに何千万枚もの絵を描いてきたプロの画家に「この情報からイメージを描いてください」とお願いするのです。

「通訳」を育てるだけでいい

ただし、WiFi の CSI という暗号のような情報を、そのまま天才画家に渡しても理解してもらえません。
そこで研究チームは、CSI を画家が理解できる言葉に”翻訳”する専門の通訳を作ることにしたのです。

この通訳こそが、LatentCSI の心臓部である CSI エンコーダーです。

CSI エンコーダーは、WiFi の電波情報を受け取ると、それを Stable Diffusion が理解できる「潜在空間」という特殊な形式に変換します。
この潜在空間とは、画像の本質的な特徴だけを圧縮した、いわば画像の設計図のようなもの。

通常の画像が 512×512 ピクセル×3色（RGB）という膨大な情報量を持つのに対し、潜在空間では 4×64×64 という、およそ60分の1の情報量で済みます。
これは、家の完成写真ではなく、建築設計図を扱うようなものです。

シンプルな3ステップで魔法が起きる

LatentCSI の画像生成プロセスは、驚くほどシンプルです：

ステップ1：翻訳
WiFi の CSI 情報を CSI エンコーダーが受け取り、潜在空間の「設計図」に変換します。

ステップ2：磨き上げ
この設計図に少しノイズ（雑音）を加えてから、Stable Diffusion の拡散モデルが何度も何度もノイズを取り除きながら、美しい画像の設計図へと磨き上げていきます。
この過程で、必要に応じてテキスト（「オフィスにいる男性」など）を指示として与えることもできます。

ステップ3：実体化
最後に、Stable Diffusion のデコーダーが、磨き上げられた設計図を実際の 512×512 ピクセルの高解像度画像へと「実体化」します。

この3ステップで、WiFi の電波情報が、まるで魔法のように鮮明な画像へと変わるのです。

実験結果が証明した圧倒的な性能

実験その1：歩き回る人を追跡する

研究チームは、まず現実的なシナリオで実験を行いました。

小さなオフィス空間で、1人の被験者が25分間、あちこち歩き回ります。その間、WiFi 機器が1秒に10回の頻度で CSI を記録し、同時にカメラで実際の映像も撮影します。

集められたのは、合計 15,000 組の CSI 情報と画像のペア。
この膨大なデータを使って、CSI エンコーダーを訓練しました。

結果は？　
従来の手法を圧倒的に上回る性能でした。

従来の「画像を直接生成する」手法と比べて、LatentCSI は：

画像の知覚品質を測る指標（FID）で約半分のスコアを達成（数値が低いほど良い）
訓練時間は3分の1に短縮
しかも、人物部分に注目すると性能差はさらに広がる

まるで、同じ画材を使っているのに、一方は素人の落書き、もう一方はプロのスケッチになったような違いです。

実験その2：多様なポーズも自然に再現

次に、研究チームは公開されている「MM-Fi データセット」という、より多様な人間のポーズを含むデータで実験しました。
こちらは 23,760 サンプルという、さらに大規模なデータセットです。

ここでも、LatentCSI は優れた結果を示しました。
特に注目すべきは、人体の解剖学的に正しい画像を生成できたことです。

従来の手法では、手や足が不自然な位置にあったり、体の一部が歪んでいたりすることがよくありました。
しかし LatentCSI は、Stable Diffusion という「人間の画像を何百万枚も学習したAI」の知識を活用するため、自然で説得力のある人体画像を生成できるのです。

言葉で画像を操る──テキスト編集の魔法

LatentCSI の最も革新的な機能の1つが、テキストによる画像の操作です。

同じ CSI 情報から、異なる文章を指示することで、全く違う雰囲気の画像を生成できるのです。

例えば：

「小さなオフィス部屋にいる男性、4K、リアル」→ 写実的な写真風の画像
「研究室にいる男性の絵、アニメ、4K」→ アニメ調のイラスト

これは、同じ骨格情報から、服装やスタイル、背景を自由に変えられるということ。
まるで、人形に異なる衣装を着せ替えるようなものです。

プライバシーという”聖域”を守る設計

ここで重要なのが、プライバシー保護の側面です。

LatentCSI の設計には、意図的に「情報のボトルネック」が組み込まれています。
CSI 情報から潜在空間への変換過程で、顔の詳細な特徴や服の細かい模様といった、個人を特定できる情報は失われます。

しかし、AIの力で「この人は立っている」「手を上げている」といった重要な情報は保持されます。
そして、テキスト指示によって「男性」「女性」といった一般的な外見を後から付け加えることができるのです。

これは、防犯カメラの映像にモザイクをかけるのとは全く違います。
最初から個人情報を記録せず、必要な行動情報だけを抽出する──これこそ、プライバシー・バイ・デザインの理想形です。

この技術がもたらす明るい未来

この技術には、素晴らしい応用可能性があります。

高齢者の見守り
カメラを設置せずに、独居高齢者が転倒していないか、異常な動きがないかを検知できます。
プライバシーを守りながら、安全を確保する理想的なシステムです。

スマートホームの進化
家族がどの部屋にいるか、どんな活動をしているかを把握し、照明や空調を最適化できます。

セキュリティの向上
不審者の侵入を、カメラなしで検知できます。

災害救助への応用
地震や火災で建物が崩れたとき、瓦礫の下に人がいるかを外部から検知する技術にも応用できるかもしれません。

諸刃の剣──濫用への警戒も必要

しかし同時に、この技術は濫用のリスクも孕んでいます。

悪意ある人物が、隣の部屋や隣の家を”盗撮”する道具として使う可能性。
ストーカー行為への悪用。権威主義的な政府による市民監視。

だからこそ、研究チームは意図的にプライバシー保護機能を組み込み、顔の詳細などは再現できないように設計しているのです。

技術の進歩には、常に倫理的な配慮が必要です。
私たちは便利さと引き換えに、何を失うリスクがあるのか──これを常に問い続けなければなりません。

未来への扉は、静かに開いている

WiFi の電波から画像を生成する「LatentCSI」。

この技術は、私たちに未来の一端を垣間見せてくれます。
カメラという「目」がなくても、私たちの周りには、世界を”見る”ための無数の手段が存在している──そんな可能性です。

重要なのは、この技術が計算効率が良く、訓練が簡単で、プライバシーに配慮されているという3つの美徳を兼ね備えていることです。

研究チームは、従来の GAN のような複雑な仕組みを捨て「巨人の肩に乗る」という賢明な選択をしました。
すでに存在する優れたAI（Stable Diffusion）の力を借りることで、シンプルでありながら強力なシステムを作り上げたのです。

これは、技術開発における1つの教訓でもあります。
ゼロからすべてを作る必要はない。
既存の優れた技術を賢く組み合わせることで、新しい価値を生み出せるのです。

夜、あなたの部屋の WiFi ルーターの小さなランプが点滅しているとき、それはただインターネットに接続しているだけではありません。
もしかすると、部屋の中で起きている静かな物語を、そっと記録しているのかもしれません。

その物語が、誰かの安全を守るために使われるのか、それとも誰かのプライバシーを侵害するために使われるのか──それを決めるのは、技術そのものではなく、技術を使う私たち人間の選択なのです。

LatentCSI という技術が開いた扉の向こうには、明るい未来と暗い未来、両方の可能性が広がっています。
どちらの道を選ぶのか。
その答えは、私たち一人ひとりの手に委ねられているのです。

参考：High-resolution efficient image generation from WiFi CSI using a pretrained latent diffusion model