AMAZON でお買物

診断精度 90% でも足りない――皮膚病理AIが映し出す”人の眼”の価値

AI

朝いちばん、顕微鏡の視野いっぱいに”ピンクと紫”が広がる。
表皮は波、真皮は海底。
病理医は毎日、その色の海図を頼りに航海します。
けれど、ときどき境界は霞み、島影(病変)が正常の入江と見分けにくい—ボーエン病やメラノーマがその典型です。

診断件数の増加は航海の本数を押し上げ、疲れは判断の微妙なぶれに直結します。
そんなとき、海上に灯るのがAIという灯台です。
ただ、灯台を明るくするには膨大で良質な地図(データ)が欠かせません。


4施設・34,376 枚が描いた”等深線”

研究チームは、ソウル大病院、カトリック医療センター、国立がんセンター、サムスン医療センターの4施設から、34,376 枚の全スライド画像(WSI)を収集。
正常皮膚+6疾患(表皮嚢胞、脂漏性角化症、ボーエン病/有棘細胞癌、基底細胞癌、メラノサイト母斑、悪性黒色腫)に分類し、病変領域を丁寧にアノテーションしました。

構文正確性 0.99、意味正確性 0.95という高品質で、AI学習の地盤を固めています(J Korean Med Sci, 2025)。
※データの全体構成や各群の件数は、詳細なデモグラフィも整備されています。


“人の眼”を芯に据えたラベリング作法

WSI は ×20 または ×40 でスキャンし、品質の悪い標本は除外。
アノテーションは訓練を受けた21名のアノテーターが一次担当し、平均13年の臨床経験をもつ複数施設の病理医が検証しました。

最終的には XML と WSI、臨床情報を統合して JSON に—この一連の流れまで品質チェックをかける“工程そのものを設計する”姿勢が光ります。
使用ツールは Aperio ImageScopeASAP で、施設ごとのファイル形式差に対応しています。


モデルは U-Net、評価は Dice——”切れ味”を測る定規

学習は患者単位で 8:1:1 に分割
512×512 ピクセルのパッチを5倍相当で切り出し、ResNet50×U-NetDice 損失+Adam で最適化。
過学習は早期終了で抑え、評価には Dice 係数を用いました。
AI-Hub での共有も見据えた、再現可能性の高い手順です。


結果:90% 台の海域も、霧深い海峡も

データ品質は、構文エラー <1%、座標エラーなし。
意味正確性>95% を達成。
モデルの平均 Dice はパッチ 87.1%、スライド 85.2% でした。

疾患別の精度

母斑(スライド 90.8%)や脂漏性角化症(スライド 90.2%)が好成績。
一方、ボーエン病/有棘細胞癌は 81.3% と難所です(パッチは 82.0%)。

なぜ難しいのか?

“異型が上皮内にとどまり、正常や反応性変化との境界が薄い”という臨床的な事情が、AIにも人にも共通の壁になっているからです。
現実の難しさが、そのままモデルの限界に映る—この一致は、むしろ健全なフィードバックと言えます。


それでも前へ——開かれたデータ、広がる応用

このデータは韓国 NIA の AI-Hub で共有され、教育・研究・産業の広い場で活用可能です。
将来的には、リンパ節転移や再発のリスク予測、遺伝子変異の推定など、デジタルバイオマーカーの開発にも寄与しうると論文は展望します。

ただし現状はアジア人中心で、外部公開データによる検証が次の課題。
多様性と一般化の強化が、次の航路図になります。


まとめ:データは港、AIは船、病理医は航海士

良質な大規模データという港が整えば、AIという船は遠くまで航海できます。
けれど羅針盤は、いつも人(病理医)の手にあります。

ピンクと紫の海で迷いそうになったとき、AIが灯すのは「ここが怪しい」という小さな灯り。
最後に行き先を決めるのは人間です。

この研究は、そのための確かな海図を1枚、世界に足した—そう言える仕事でした。

参考:Large-Scale Dermatopathology Dataset for Lesion Segmentation: Model Development and Analysis

コメント

タイトルとURLをコピーしました