「この笑顔だけ切り取りたい」──Metaが創った“視るAI”が、写真の意味を読み取る時代へ

Metaが開いた、画像理解の扉「SAM 3」
写真の中にある「物語」を、AIが読み取る時代へ
Segment Anything Model(SAM)とは何か?
SAM 3の進化: これまでの限界を超えた3つのポイント
SAMの力が発揮される”リアルな未来”
“切り出す”ということは、”見つめ直す”ということ
最後に: あなたの目に映る世界も、もっと豊かになる

Metaが開いた、画像理解の扉「SAM 3」

写真フォルダを眺めていて、ふとこんなことを思ったことはありませんか?

「この写真の、あの子の笑顔だけを切り取って残せたら」
「空の色だけを抽出して、自分の作品に使えたら」

そんな夢みたいなことを、言葉も命令もいらずに叶えてくれるAIが、ついに登場しました。

Meta(旧Facebook)が開発したSegment Anything Model(SAM)。その最新版SAM 3は、画像や動画の中から「意味のあるもの」を瞬時に切り出し、追跡する力を持った、まさに”視る”AIです。

この記事では、初心者でもわかる言葉で、この驚きの技術が何を可能にし、私たちの暮らしや仕事にどんな変化をもたらすのかを、ストーリー形式でご紹介します。

写真の中にある「物語」を、AIが読み取る時代へ

私たちは写真を見ると、自然と意味を読み取ります。

「これは犬」
「これは夕日」
「この影はたぶん人の手」
でもAIにとって、画像はただの”点の集まり”でしかありません。

そんなAIが、画像の中にある意味を理解し、必要なものを切り出す。
これはまるで、初めて人が言葉を話し始めた時のような大きな進化です。

Metaの「SAM」は、このセグメンテーション(物体の切り出し)技術を革新的なレベルへと引き上げました。

Segment Anything Model(SAM)とは何か?

SAMは、画像や動画の中にある「意味のまとまり」を、カテゴリや定義に縛られず切り出せるAIです。

たとえば、画像の一部をタップするだけで、その物体の輪郭が自動で浮かび上がります。
テキストで「赤いかばん」や「縞模様の赤い傘」といった具体的な名詞句を入力するだけで、それが画像内から検出されます。
さらに、別の画像から切り出した物体の例を見せることで、同じような物体を見つけ出すことさえできるのです。

まるで、画像の中にある”気配”を察知する能力をAIが得たような感覚です。

SAM 3の進化: これまでの限界を超えた3つのポイント

既存システムの2倍の性能向上

SAM 3は、画像と動画の両方において、既存システムと比較して2倍のパフォーマンス向上を実現しました。
処理速度も驚異的で、100個以上のオブジェクトを含む1枚の画像をわずか30ミリ秒で処理できます。まるで画像を見た瞬間に「ここだよ」と指差すかのような速さです。

テキストと画像例によるプロンプト機能

SAM 3の最大の特徴は、テキストプロンプト(短い名詞句)と画像例プロンプトの両方に対応したことです。
これにより、あらかじめ定義されたラベルセットの制約から解放されました。
従来のモデルは「人」のような頻出する概念は切り出せても「縞模様の赤い傘」のようなニュアンスのある概念には苦労していました。
SAM 3はこの限界を突破したのです。

幅広い概念への対応と動画追跡

SAM 3は、400万以上のユニークな概念を含む大規模で多様なトレーニングデータを活用し、あらかじめ学習していないものでも「これは何かのまとまりだ」と推測して切り出す力を持っています。
さらに、動画内のオブジェクトを追跡する機能も備えており、画像だけでなく動画の理解においても革新をもたらしています。

それはまるで「この形、たぶん何かの意味がある」と直感する私たち人間のよう。

SAMの力が発揮される”リアルな未来”

ではこの技術、実際にどんな風に使われていくのでしょうか?

医療の現場で
CTスキャンの画像から、異常な部分を自動で抽出。
医師が「注目すべき部位」に集中できるようサポートします。

災害対応や地理解析に
ドローンが撮影した被災地の写真から、倒壊した建物だけを自動抽出。
迅速な救助活動や被害マップの作成に役立てられます。

野生動物保護や海洋研究にも
SAM 3は科学分野でも活用されています。
Conservation X LabsやOsa Conservationとの協力により、カメラトラップで撮影された100種以上の動物を含む1万本以上の動画からなるSA-FARIデータセットが公開されました。
また、海洋研究機関MBARIが主導するFathomNetプロジェクトでは、水中画像の解析に活用され、海洋生物の発見と保護に貢献しています。

クリエイターの創作活動にも
写真の一部をサクッと切り出して、他の作品にコラージュしたり、背景を除去して素材にしたり。
Photoshopを何時間も操作していた作業が、数秒で終わるかもしれません。
MetaはすでにSAM 3を活用した新しい編集機能をEditsアプリに導入する予定で、クリエイターはワンタップで動画内の人物やオブジェクトに動的エフェクトを適用できるようになります。

Meta製品への統合
SAM 3の技術は、すでにMeta製品に活用されています。
Facebook Marketplaceの「View in Room」機能では、ランプやテーブルなどの家具を購入前に自分の部屋に配置した様子を視覚化できます。
また、Meta AIアプリのVibesやmeta.aiでは、AI動画生成ツールとして活用されています。