AMAZON でお買物

盗み聞きなしでAIは賢くなる! Apple が編み出した”魔法のデータ”の正体

AI

「この声、どこまで届いているのだろう?」

夕方、帰宅途中にふと Siri を起動して「今日の天気は?」と尋ねる。
ところが返ってきた答えは、どこかトンチンカンな内容。
思わず苦笑しながら「まだまだだなあ」とつぶやく。

でも、ちょっと考えてみてください。
このやりとり、実はあなたの声や言葉が、どこかに保存されて学習されているかもしれない—そう思ったこと、ありませんか?

今やAIは日常の一部。
けれど「便利さ」と「プライバシー」は、時に天秤にかけられることもあります。
そんな時代に「両方を守る方法」を探し続けてきた企業があります。
それが Apple です。

そして今、彼らが選んだ秘密の鍵は—“合成データ”と差分プライバシーという技術です。

合成データとは? プライバシーを守りながらAIを教育する方法

Apple が取り入れた「合成データ(Synthetic Data)」とは、本物のように見える”人工のデータ”のこと。
これはユーザーの行動を模倣するために構築されたデータです。

たとえば、ユーザーの実際のメールやメッセージにアクセスすることなく、AIの機能を改善できるようになります。

さらに、Apple 独自の「差分プライバシー」技術を組み合わせることで、個人を特定できないようにしながらデータを収集しています。
この方法は 2016 年から使用されています。

Apple はどのようにユーザーデータを保護しているのか?

Apple のブログ投稿によると、同社は iPhone や Mac からユーザーコンテンツを収集したりコピーしたりせずに、AIモデルをトレーニングする新しいアプローチを採用しています。

Device Analytics(デバイス解析)プログラムに参加することを選択したユーザーの場合、デバイス上で保存されているユーザーのコンテンツのサンプルと、合成メッセージを比較します。
デバイスは、ユーザーサンプルに最も近い合成メッセージを識別し、その情報を Apple に送信します。
実際のユーザーデータはデバイスから送信されず、Apple は集計情報のみを受け取ります。

iPhone の中だけで完結する学習プロセス

特に注目すべきは、これらの進化がクラウドではなく、デバイス上で完結するという点です。

例えば Genmoji の改善では、Apple は特定のユーザーやデバイスに関連付けることなく、どのプロンプトが最も人気があるかという一般的な傾向を収集します。
参加デバイスは「ノイズのある信号」で応答し、一部の応答は実際の使用を反映し、他の応答はランダム化されます。

このアプローチにより、広く使用されている用語のみが Apple に表示され、個々の応答をユーザーやデバイスに追跡することはできません。

メール要約などの複雑なタスクへの対応

短いプロンプトでは上記の方法がうまく機能していますが、メール要約などのより複雑なタスクには新しいアプローチが必要でした。

そのため、Apple は何千ものサンプルメッセージを生成し、これらの合成メッセージを言語、トーン、トピックに基づいて数値表現(「埋め込み」)に変換します。
参加ユーザーのデバイスは、ローカルに保存されているサンプルと埋め込みを比較します。
やはり、コンテンツ自体ではなく、選択された一致のみが共有されます。

ベータ版で利用可能

Apple は現在、iOS 18.5、iPadOS 18.5、および macOS 15.5 のベータ版でこのシステムを展開しています。
Bloomberg のマーク・ガーマン氏によると、Apple はこの方法でAI開発の課題に対処しようとしています。

この取り組みが実際にどれだけ有用なAI出力をもたらすかはまだ分かりませんが、ユーザープライバシーとモデルパフォーマンスのバランスを取ろうとする明確な取り組みを示しています。

未来へ向けて:プライバシーとAIの共存

私たちが求める便利なAI機能を、プライバシーを犠牲にせずに実現する—これが Apple の目指す方向性です。

合成データと差分プライバシーの組み合わせは、その答えの一つ。
ユーザーの実際のデータではなく、模擬データを使ってAIを育て、私たちの生活を支えるのです。

参考:Apple AI stresses privacy with synthetic and anonymised data

コメント

タイトルとURLをコピーしました