「それっぽい診断文」に騙されない。画像に“根拠のピン”を刺すデータセットPadChest-GRがすごい

ある日、病院の廊下で「胸のレントゲン画像はある。
所見も書いてある。
なのに、AIが作るレポートはときどき”それっぽい嘘”を混ぜる」とこぼす先生の声を想像してみてください。
画像を見ているはずなのに、文章だけが先走ってしまう。
いわゆる「幻覚（ハルシネーション）」です。

では、AIが書いた文章を、画像の”どこを見て言っているのか”までセットで示せたらどうでしょう。
まるで地図にピンを刺すみたいに「この影のことを言っています」と指差しできたら、レポートは一気に信頼しやすくなります。

今回紹介するのは、その「指差しできるレポート」を学習させるために作られた、胸部X線の新しいデータセット「PadChest-GR」です。
論文はNEJM AIに掲載され、スペイン語と英語の二言語対応、さらに放射線科医による手作業の位置注釈まで入った、かなり骨太な内容です。

PadChest-GRとは何か
どうやって作ったの？「AIで下ごしらえ」＋「人間が仕上げ」
どれくらいの規模？数字でつかむPadChest-GR
なぜ”場所付き”が効くの？幻覚を減らす、信頼を増やす
何に使える？研究テーマの”宝箱”
もちろん万能ではない：限界も正直に書かれている
まとめ：文章に”住所”が付くと、医療AIは一歩やさしくなる

PadChest-GRとは何か

まず、ざっくり言うとPadChest-GRは次のようなデータで構成されています。
胸部X線画像（主に正面像）があり、画像に対応する「所見文」がスペイン語と英語の両方で記載されています。
その所見が写っている場所を囲った「四角い枠（バウンディングボックス）」も付いています。
さらに、前回画像がある場合は「良くなった・悪くなった・変わらない」などの経過ラベルも含まれています。

ポイントは、文章と画像の場所がひも付いていることです。
ただ「心拡大」と書いてあるだけではなく「心臓のこのあたり」と示せる。
ここが従来の胸部X線データセットと大きく違います。

この仕組みは研究領域では「Grounded Radiology Report Generation（GRRG：根拠付き放射線レポート生成）」と呼ばれます。
普通の放射線レポート生成（RRG）が「文章を作る」だとしたら、GRRGは「文章を作り、その根拠の場所も示す」。
レポートの”説明責任”を強くする方向性です。

どうやって作ったの？「AIで下ごしらえ」＋「人間が仕上げ」

PadChest-GRの面白さは、作り方そのものが現代的なことです。

元データはPadChest

ベースになったのは、スペインの病院で2009年から2017年に収集された大規模胸部X線データセット「PadChest」です。
画像は16-bit PNGで、所見ラベルや解剖学的位置ラベルなども整備されています。

ただしPadChest-GRでは、注釈しやすく信頼性の高い形にするために、次のようなフィルタが入ります。
正面像（PA、AP、AP-horizontal）だけを採用し、小児（18歳以下）や小児プロトコルは除外しました。
また”suboptimal（不適）”など注釈に向かないものは除外し、同日に複数検査があって順序が不明なものも除外しています。

GPT-4で「文章を1所見ずつ」に分解し、英訳も付与

放射線レポートって、1文に複数の所見が混ざりがちです。
たとえば「胸水があり、心拡大も疑う」のように。
でも”場所を囲む”作業は「1文につき1所見」の方が圧倒的にやりやすい。

そこで論文では、Microsoft Azure OpenAI Service上のGPT-4を使い、スペイン語レポートから所見を「1文1所見」へ抽出し、英語へ翻訳し、PadChestに元々ある所見ラベルや位置ラベルにリンクし、可能なら経過（改善・悪化など）も分類するという下ごしらえを行っています。

14人の放射線科医が品質チェックと枠付け

ここからが本番です。放射線科医がまず「この検査は使えるか」を品質チェックし、問題があれば除外します。
次に、残った所見について画像上にバウンディングボックスを手で描きます。
1所見あたり平均35秒、品質チェックは1検査あたり平均2分以上という記載があり、地道な労力が見えます。

しかも各所見は2人の放射線科医が独立に注釈。
意見が割れることも現実として受け止め、追加の注釈も公開する設計になっています。

どれくらいの規模？数字でつかむPadChest-GR

「結局、どのくらい入っているの？」を、要点だけ気持ちよく並べます。

合計4555件の胸部X線検査があり、異常3099件、正常1456件（正常が約32%）です。
所見文（センテンス）としては、陽性所見が7037文、陰性所見が3422文（「異常なし」など”ないこと”の記述）となっています。
陽性所見文には、最大2名分の枠注釈が紐付きます（公式採用を決めるルールも明記されています）。

正面像の内訳としては、PAが中心（4257枚）で、APやAP-horizontalも含まれています。
過去画像（prior）があるのは全体の約31.7%です。

そして図（論文のFigure 1やFigure 2）が示す世界観がとても分かりやすいです。
Figure 1（3ページ）では、スペイン語の元レポートが「所見ごとの短い文」に整理され、各所見が画像上の枠とセットになって並びます。
まさに「文章に住所が付く」感じです。Figure 2（4ページ）は、データが「抽出→品質管理→枠付け→組み立て」される流れを一枚絵で示していて、初心者でも迷子になりません。

なぜ”場所付き”が効くの？幻覚を減らす、信頼を増やす

ここで、ちょっとだけ比喩を使いましょう。

普通のレポート生成AIは、優秀な「口のうまい案内人」に似ています。
見学ツアーの説明は滑らかだけれど、たまに見てもいない展示物の話をしてしまう。

一方、GRRGは「説明しながら懐中電灯で照らす案内人」です。
「ここが重要です」と照らしてくれるから、聞き手は確認できる。
間違っていたらすぐ気づける。

論文でも、所見の位置を伴うことでAIレポートの検証がしやすくなり、さらに枠の情報を学習に使うことでレポートの正確性が上がり、幻覚が減る可能性が述べられています。

何に使える？研究テーマの”宝箱”

PadChest-GRは単に「レポート生成」だけのためではありません。
論文では次のようなタスクにも有用だと整理されています。

フレーズグラウンディングでは、この文章は画像のどこかを特定できます。
参照キャプションでは、この枠の中身を文章で説明できます。
所見検出では、所見ラベルを枠で当てることができます。
構造化レポート生成では、所見・位置・経過ラベルをまとめて出力できます。
対照学習（コントラスト学習）では、文章と画像の対応を賢く学習できます。

「画像を見て文章を作る」から「画像と文章の関係を理解する」へ。
このデータセットは、その一段上の学習を後押しする設計です。

もちろん万能ではない：限界も正直に書かれている

良いデータほど、限界を隠しません。PadChest-GRも同じです。

単施設（スペインの1病院）由来で、地域の医療慣行の偏りがあり得ます。
画像は2014年から2017年中心で、フィルム由来のデジタイズもあり画質が現代基準より低い可能性があります。
PNG形式なので注釈時にDICOMのような細かい表示調整ができません。
正面像中心のため、側面像が必要な所見は表現が限定されます。
LLM処理では、文の欠けや直訳に近い誤訳が起こり得ます（例として「condensation」などの話も言及されています）。

このあたりの注意書きは、データを使う研究者だけでなく、「AI医療」を眺める一般読者にとっても大切です。
AIは魔法ではなく、素材と工程の影響を受ける”道具”だと分かるからです。

まとめ：文章に”住所”が付くと、医療AIは一歩やさしくなる

PadChest-GRは、胸部X線の所見を「文章」だけで終わらせず、画像のどこが根拠なのかまでセットにした、二言語対応の大規模データセットです。
GPT-4で下ごしらえし、14人の放射線科医が品質管理と枠注釈で仕上げる。
その工程自体が、これからの医療AIづくりの現実的な型になっています。

最後に、印象に残る言葉で締めます。

AIが書く文章に、地図を渡してあげよう。
地図があれば、迷子になりにくい。
間違いにも気づける。
そして何より、読む人の心が少し安心します。

もしあなたが「医療AI」「胸部X線」「放射線レポート生成」「説明可能AI」「ハルシネーション対策」といったキーワードに少しでも興味があるなら、PadChest-GRはきっと、次の一歩を照らす懐中電灯になってくれます。

参考：PadChest-GR: A Bilingual Chest X-Ray Dataset for Grounded Radiology Report Generation