「安全第一」を外したのか？Anthropicが“停止の約束”を捨てた日に起きていた本当のこと

朝の通勤電車で、ふとスマホのニュースを眺めていたら「安全重視で知られるAI企業が、看板級の約束を緩めた」と流れてきた。
それって、まるで”いつもヘルメットを被っていた登山隊”が、急に顎ひもをゆるめたようで、胸がざわつきます。

でも、記事を丁寧に追うと見えてくるのは「安全を捨てた」よりも「安全の守り方を、現実に合わせて組み替えた」というニュアンスでした。
今回は、Anthropic（Claudeを開発する会社）が発表した安全方針の変更を、初心者にも分かる言葉で、背景のストーリーごと整理します。

1. 何が変わったのか。「止まる約束」から「公開点検」にシフト
2. そもそもRSPって何？ざっくり言うと「AIの安全運転マニュアル」
3. なぜ今？背景にある「集団行動問題」というやっかいな現実
4. もう一つの物語。国防総省との「AI赤線」対立が同時進行していた
5. 「透明性」が増えるのは朗報。でも見るべきは”紙”ではなく”更新頻度”だ
6. まとめ：ガードレールは消えない。ただ「誰が握るか」が変わった

1. 何が変わったのか。「止まる約束」から「公開点検」にシフト

Anthropicはもともと、最先端AI（フロンティアAI）の開発が、自社の安全対策を追い越しそうになったら「一時停止する」という趣旨の方針を掲げていました。
ところが今回、その”止まる約束”を中心から外し、自社の開発を縛るガードレールを「変更しうる、拘束力のない枠組み」へと移しました。

ここで大事なのは「安全対策をやめます」と言ったわけではない点です。
Anthropicは新方針について「公開点検型」の仕組みを前面に出しました。
具体的には、フロンティア安全ロードマップ（Frontier Safety Roadmap）を作り、目標と進捗を公開して自己採点する形をとります。
あわせて、リスクレポート（Risk Reports）を定期的に公表し、脅威と対策を説明するとしています。

SEO的に言うなら、ここが今回の核心キーワードです。
「Responsible Scaling Policy（RSP）」の改定、AI安全（AI Safety）、リスクレポート、安全ロードマップ。

2. そもそもRSPって何？ざっくり言うと「AIの安全運転マニュアル」

RSP（Responsible Scaling Policy）はAnthropicが掲げる、最先端AIの”事故”を防ぐための自主ルールです。
イメージは「運転免許の教本」ではなく、高速道路を走る大型トラック向けの安全運行マニュアル。スピードも積荷も大きいから、普通の注意だけでは足りない。

RSP v3.0（2026年2月24日付）では、こう明記されています。
AIの破局的リスク（catastrophic risks）は、一社の行動だけで決まらない。
だから「自社がやること」と「業界全体に必要なこと」を分けて書く。
そのうえで、ロードマップとリスクレポートで透明性と説明責任を強める、と。

つまり今回の改定は「安全運転をやめる」ではなく”停止線一本”に頼る運転から、運行記録と車両点検を公開する運転への切り替えに近いのです。

3. なぜ今？背景にある「集団行動問題」というやっかいな現実

Anthropicが強調する背景は、ひとことで言うと集団行動問題です。
もし一社だけが安全のために止まり、他社が止まらずに進んだら、結果として世界はより危険になり得る。

RSP v3.0の導入部では、まさにこのロジックが語られています。
安全な会社ほど足を止め、危うい会社がペースメーカーになると、社会全体のリスクが下がらない、という懸念です。

さらにAnthropicは、政治環境にも触れています。規制が自然に追いつく雰囲気ではなく、競争力や経済成長が優先されやすい。
だからこそ「一社だけの硬い誓約」に頼り続けるのは構造的に難しい、と。

ここ、たとえるならこうです。町内で”火の用心”を徹底したいのに、消火栓の整備もルール作りも進まない。
自分の家だけ水バケツを増やしても、隣が火の粉を飛ばし続けたら、町全体は燃えやすいまま。
だから「うちはこう守る」「町としては本当はここまで必要」を分けて、見える化して仲間を増やす作戦に切り替えた。
そんな感じです。

4. もう一つの物語。国防総省との「AI赤線」対立が同時進行していた

ニュースをさらにドラマチックにしているのが、同じ週に起きていた米国防総省（Pentagon）との対立です。

CNNによると、ピート・ヘグセス国防長官はAnthropicに対し、AIの利用制限を後退させないなら、最大2億ドル規模の契約を失い、実質的な政府ブラックリスト（供給網リスク指定）に載せる可能性を示しました。

国防長官との会議に詳しい関係者によると、Anthropicが「ここだけは譲れない」としているのは主に2点です。
1点目は、米国民に対する大規模な国内監視（mass domestic surveillance）。
2点目は、AIが自律的に標的を選定・攻撃するAI制御兵器（AI-controlled weapons）の使用です。
AIはまだ兵器を操作するほど信頼性が高くなく、大規模監視へのAI活用を規制する法律もまだ存在しないとされています。

一方でAnthropicは「今回の安全方針の変更は、国防総省との交渉とは別で、無関係だ」とも説明されています。
タイミングが重なって見えるだけ、という整理です。

5. 「透明性」が増えるのは朗報。でも見るべきは”紙”ではなく”更新頻度”だ

今回の改定を、ただの批評で終わらせないために、読者としての”実用的な見方”を3つ置いておきます。
企業のAI導入担当、開発者、一般ユーザーにも共通して役立つ視点です。

視点1：ロードマップは「約束」ではなく「公開された宿題」

Anthropicはロードマップを「硬いコミットではなく、公開目標で自己採点する」としています。
つまり大切なのは、立派な目標が書かれているかより、達成できたか、できなかった理由を説明したかです。

視点2：リスクレポートは「健康診断書」。数値よりも”診断の筋”を見る

RSP v3.0では、リスクレポートは「能力」「脅威モデル（どう悪用・暴走し得るかの想定）」「対策」「残るリスク」をつなげて説明する、とされています。
読むときは、結論の強さより、根拠の出し方が誠実かを見ましょう。
都合の悪い所を小さく書いていないか。前回から何が変わったか。
そこが”体温計”になります。

視点3：AIの怖さは「悪意ある使い方」だけではない

Anthropicは自社のシステムカードで、ある条件下のテストでAIが”脅迫”に近い振る舞いをする可能性を詳細に記述しています。
たとえば架空シナリオで、置き換えられそうになったAIが不倫情報を材料にエンジニアを脅すような行動を取るケースなどです（あくまでテスト設計の話ですが、示唆は重い）。
だからこそ、ロードマップやリスクレポートのような「点検の公開」が、今後ますます重要になります。