自己生成スキルは逆効果？ “プロが作った手順書”がAIを強くする決定的な根拠

はじめに：AIに仕事を頼んだのに、なぜか遠回りする夜
Agent Skillsってなに？ひと言でいうと「再利用できる手順書パック」
SkillsBenchは何をした？ざっくり言うと「Skillsあり／なし」を同じタスクで比べた
結果1：キュレーションSkillsは平均+16.2ポイント効いた（でも万能じゃない）
結果2：自己生成Skillsは、平均で効かない（むしろ下がることも）
結果3：ドメインで効き方が違いすぎる（医療は爆伸び、ソフトウェア工学は控えめ）
結果4：「多ければ良い」は罠。Skillsは2〜3個がちょうどいい
結果5：分厚い説明書より、短く焦点の合った手順が強い
じゃあ実務でどう使う？ SkillsBenchから逆算する”勝ち筋”
おわりに：AIに必要なのは「賢さ」より「段取り」かもしれない

はじめに：AIに仕事を頼んだのに、なぜか遠回りする夜

夜の終電が近づくころ。
ユウさんは、ターミナルで動くAIエージェントにこう頼みました。

「このデータ、集計してレポートにして」

エージェントは元気よく動き出します。
けれど、途中でつまずく。
ファイル形式を取り違えたり、テストに落ちたり、最終的に「それっぽい」文章だけ残して終了。

ユウさんは思います。
知識はあるのに、手順がない。
たとえるなら、材料はそろっているのにレシピがない料理みたいに。

ここで登場するのが「Agent Skills」です。
AIエージェントに”手順書”を渡す仕組みですが、実は最近まで「本当に効くの？」をちゃんと測る物差しがありませんでした。
そこで登場したのが、論文 SkillsBench です。

Agent Skillsってなに？ひと言でいうと「再利用できる手順書パック」

SkillsBenchは、Skillを「推論時にエージェントのふるまいを補強する、構造化された手順知識のパッケージ」と定義します。
中身は、文章の説明だけではありません。
テンプレ、スクリプト、例、検証ロジックなどがまとまって入ります。

論文では、Skillの条件をわかりやすく4つに整理しています。
手順（procedural）であること、つまり事実の丸暗記ではなく「どうやるか」を示すこと。
単発ではなく、タスクの”型”に効くこと、すなわち一回限りの答えではないこと。
構造化されていることとして、SKILL.md と必要なリソース群を含むこと。
そして持ち運べることとして、ファイルシステムで管理でき、共有しやすいことが挙げられています。

ここがポイントで、Skillは単なる「長いプロンプト」や「RAG（検索して貼るやつ）」とは違います。
SkillsBenchの整理によれば、Skillsは「モジュール化」「手順のガイド」「実行できるリソース」を同時に持てるのが特徴です。

SkillsBenchは何をした？ざっくり言うと「Skillsあり／なし」を同じタスクで比べた

AI研究って、モデル単体の点数比較は多いのですが、SkillsBenchが面白いのはここです。
同じタスクを、次の3条件で回します。
Skillsなし、キュレーションされたSkillsあり、そして自分でSkillsを”生成させる”（自己生成Skills）です。

さらに、評価がブレないように「LLMが採点する」のではなく、決定的にPass/Failが出る検証（deterministic verifier）を使います。
要するに、テストに通れば合格、落ちたら不合格。
プログラム採点です。

そして規模が大きい。
84タスク・11ドメイン（医療、製造、サイバーセキュリティ、ソフトウェア工学など）を、7つのエージェント構成で7,308回走らせています。

結果1：キュレーションSkillsは平均+16.2ポイント効いた（でも万能じゃない）

メインの結論はスパッとしています。
キュレーションSkillsは平均で合格率を+16.2ポイント改善しました。
ただし、効き方は一様ではなく、構成によって改善幅にばらつきがあります（+13.6〜+23.3ポイント）。

ここで大事なのは「Skillsを入れたらいつでも勝つ」ではないこと。
現場感で言うと、良い手順書を渡せば伸びるが、雑な手順書や状況に合わない手順書は邪魔にもなる、ということです。

結果2：自己生成Skillsは、平均で効かない（むしろ下がることも）

「じゃあ、エージェントに”先に手順書を書かせてから”仕事させれば良いのでは？」これ、やりたくなりますよね。

でもSkillsBenchでは、自己生成Skillsは平均でほぼ改善なし、むしろマイナスという結果でした（平均 -1.3ポイント）。
理由の分析もリアルです。
「pandasを使う」みたいなふわっとした手順で止まる（APIの具体がない）、そもそも専門知識が必要だと気づけない（製造や金融など）といった2つの失敗パターンが確認されています。

つまり、モデルは知識を持っていても、”勝てる形の手順”に落とすのが苦手な場面がある。
ここが痛いほど現場的です。

結果3：ドメインで効き方が違いすぎる（医療は爆伸び、ソフトウェア工学は控えめ）

Skillsの効きが一番ドラマチックに出たのが、ドメイン別の差です。

Healthcare（医療）：Skillsあり 86.1% vs なし 34.2%（+51.9ポイント）

Manufacturing（製造）：Skillsあり 42.9% vs なし 1.0%（+41.9ポイント）

Software Engineering（ソフトウェア工学）：+4.5ポイント

なぜこんな差が出るのか。
論文は、事前学習に載りにくい「現場の手順」が強い領域ほどSkillsが効くと説明しています。

たとえるなら、学校の教科書で学びやすい科目は元から強い。
でも、現場のクセが強い仕事ほど「先輩のチェックリスト」が効く。
そんな感じです。

結果4：「多ければ良い」は罠。Skillsは2〜3個がちょうどいい

SkillsBenchの設計分析で、個人的に一番刺さったのがここです。
Skillsが2〜3個のとき改善が最大（+18.6ポイント）で、4個以上になると改善が小さくなります（+5.9ポイント）。

増やしすぎると、エージェントの頭の中が「説明書だらけ」になって迷子になる。
まるで、旅行で持ち物を詰め込みすぎて、肝心のパスポートがすぐ出てこない…みたいな。

結果5：分厚い説明書より、短く焦点の合った手順が強い

さらに、Skillsの”長さ・複雑さ”でも結果が出ています。
Detailed（ほどよく詳しい、+18.8ポイント）やCompact（要点型、+17.1ポイント）はプラスに作用する一方、Comprehensive（網羅的で長い）は、むしろマイナス（-2.9ポイント）でした。

要するに、Skillsは百科事典ではなく「この状況ではこの順でやる」という、細い道のガイドが強い。

じゃあ実務でどう使う？ SkillsBenchから逆算する”勝ち筋”

ここまでを、現場向けに”使える形”にまとめます。

1）Skillsは「SOP＋例＋小さな道具」にする

Skillは手順だけでなく、テンプレやスクリプトを同梱できるのが強みです。
チェックリストに加えて、コピペできる雛形や、検証用の小さなコマンドがあると、エージェントは迷いにくくなります。

2）2〜3モジュールに分けて渡す

「全部入り1個」より「役割が違う2〜3個」が良い結果につながります。
たとえばデータ分析なら、入力の確認、変換手順、出力と検証という3つに分ける設計が効きやすいはずです。

3）長文ドキュメントは”参照用”に回し、手順は短く

網羅的ドキュメントがマイナスになり得るのは、重要なサインです。
エージェントに渡す本文は短く、詳細は別ファイルに逃がす。
人間のオンボーディング資料と同じ発想です。

4）「自己生成Skillsでいける」は過信しない

自己生成は平均で効きません。
特に、専門領域の”型”は、人間が一度は形にしてあげるのが現実的です。

おわりに：AIに必要なのは「賢さ」より「段取り」かもしれない

SkillsBenchは、AIエージェント開発の空気を少し変えます。
「モデルを大きくする」だけでは届きにくいところに、手順の設計という別ルートを示したからです。

ユウさんの夜に戻りましょう。
もしAIに渡す”手順書”が、短く、要点が切れていて、例があり、検証の観点まで揃っていたら。きっとエージェントは、迷子の散歩ではなく、目的地までの最短ルートを歩けます。

AIは魔法使いではなく、相棒です。相棒に渡すのは呪文より、良い段取り。

参考：SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks