LLM高速化の本命か。Speculative Decodingをさらに先読みする新手法「Saguaro」とは

AIが賢くなるほど、なぜ返事は遅く感じるのか
まずは土台から。Speculative Decodingは何をしているのか
SSDの核心は、「次に起こりそうな未来」を先に作っておくこと
でも、ただ先回りすれば勝てるわけではない
Saguaroを支える3つの工夫
実験結果はどれくらいすごいのか
それでも万能ではない。論文が正直に書いていること
まとめ。AIの待ち時間は、まだ削れる

AIが賢くなるほど、なぜ返事は遅く感じるのか

生成AIを使っていると、ときどき不思議な感覚になります。
文章は上手で、質問にも深く答えてくれるのに、返事そのものは意外と「一文字ずつ」「一歩ずつ」進んでいく。
まるで、とても優秀な職人が、ものすごく丁寧に一筆ずつ書いているような遅さです。

このもどかしさの正体は、LLMの多くが次の1トークンを決めてから、その次へ進むという、きわめて順番依存の強い仕組みで動いていることにあります。
そこで近年注目されてきたのがSpeculative Decodingです。
これは、小さくて速い「下書き役」のモデルが先回りして候補を出し、大きくて遅い「本番役」のモデルがまとめて確認することで、生成を速くする方法です。
今回の論文は、そのさらに先を行きます。
確認が終わるのを待つのではなく、確認結果まで先読みして、その先の下書きまで準備してしまおうというのです。

この論文「Speculative Speculative Decoding」は、Stanford、Princeton、Together AIの研究者らによる2026年3月のarXiv論文で、最適化されたアルゴリズム Saguaro を提案しています。
主張はとても明快です。
従来の推論を大きく変えずに、最適化済みの speculative decoding より最大2倍、通常の自己回帰生成より最大5倍の高速化を目指せる、というものです。

まずは土台から。Speculative Decodingは何をしているのか

従来の自己回帰生成は、1トークンずつ順番に決めます。
これに対して speculative decoding では、まず軽量なdraft modelが「この先はたぶんこう続く」と数トークン分を先に提案します。
その後で、重いtarget modelがそれらをまとめて検証します。
もし提案が妥当ならそのまま採用し、どこかで外れたら、そこから先は捨てて補正します。
こうすることで、毎回重いモデルを1歩ずつ動かすより速くなるのです。

ここで大事なのは、この方法が単なる近道ではなく、論文の表現を借りればlossless、つまり最終的な生成分布を壊さない形で行われる点です。
外れたときには「bonus token」と呼ばれる補正の1トークンを、residual distributionという補正用の分布からサンプルします。
難しく見えますが、要するに「下書きがズレた分だけ、本番役がきちんと帳尻を合わせる」仕組みです。

ただし、この優秀な仕組みにも弱点がありました。
下書きの次のラウンドは、検証が終わるまで始められないのです。
せっかく並列化したのに、まだ「待ち時間」が残っていた。
論文はそこにメスを入れます。

SSDの核心は、「次に起こりそうな未来」を先に作っておくこと

SSD、つまり Speculative Speculative Decoding の発想は、驚くほどシンプルです。
いま検証している最中に、draft model が「検証結果はたぶんこのどれかだろう」と予測し、その結果ごとの次の候補列を先に作ってキャッシュしておくのです。
もし本当にその予測のどれかが当たれば、検証が終わった瞬間に次の候補を即座に渡せます。
つまり、従来なら必要だった「次の下書きの待ち時間」が消えます。

たとえるなら、忙しいレストランの厨房に似ています。
従来法は、シェフが一皿を味見して合格を出してから、次の皿の準備に入る流れでした。
SSDでは、補助スタッフが「次はこの注文が通りそう」と見込んで、いくつかの有力候補をすでに下ごしらえしておく。
味見の結果が予想通りなら、間髪入れずに次の一皿を出せるわけです。

しかもこの方法は、予測が外れたときの逃げ道まで含めて設計されています。
キャッシュにない結果が出たら、通常の speculative decoding に近い形へフォールバックすればよい。
だから、速くなる可能性を狙いながらも、正しさは守れるのです。

でも、ただ先回りすれば勝てるわけではない

ここで話は一気に面白くなります。
論文によれば、SSDを本当に速くするには大きく3つの難所があります。
第一に、検証結果として当てるべきものは「何トークン受理されたか」だけではなく、補正で選ばれるbonus tokenまで含みます。
第二に、よい下書きを出そうとすると受理率は上がる一方で、検証結果の予測のしやすさとは緊張関係が生まれます。
第三に、予測が外れたときの処理を下手にすると、特に高温度や大きなバッチサイズで一気に効率が崩れます。

この3つの問題に対して、Saguaroはそれぞれ別の工夫を与えています。
論文の見どころは、単に「新しいアイデアを入れました」で終わらず、なぜそこがボトルネックになるのかを理論と実験の両方で丁寧に示しているところです。

Saguaroを支える3つの工夫

予測すべき結果を、やみくもに広げない

検証結果の候補は非常に多く、全部を先回りして準備するのは現実的ではありません。
そこでSaguaroは、各位置で「どれだけ候補を枝分かれさせるか」を決め、上位の有力候補だけをキャッシュします。
具体的には、各 lookahead 位置で draft の上位 logits から候補を取り、検証に送ったトークンそのものは bonus token になり得ないので除外します。
要は、限られた時間で「当たりそうな未来」にだけ賭ける設計です。

当たりやすいように、下書きの出し方そのものを調整する

さらに興味深いのがSaguaro samplingです。
論文は、キャッシュに入れておきたい上位トークンに、補正用の residual distribution の確率質量が集まりやすくなるよう、draft 側のサンプリングを調整します。
言い換えると「そのままでは読みにくい未来」を「少し読みやすい未来」に整えてから先読みするわけです。
これによりcache hit rateは上がる一方、acceptance rateとはトレードオフになります。
速さとは、じつは一つの指標だけでは決まらないのだと分かります。

外れたときは、バッチサイズに応じて逃げ方を変える

論文は、キャッシュミス時のフォールバックも固定しません。
小さなバッチでは遅くても質の高いバックアップ推論が有利で、大きなバッチではとにかく速いバックアップのほうが有利だと示します。
実装では、高バッチ時にランダムトークンを返すような非常に軽いバックアップも試しており、バッチが大きくなるほどそれが効いてくると報告しています。
ここには「賢い代替案」より「一瞬で動く代替案」が勝つ場面がある、という現実的な知恵があります。

実験結果はどれくらいすごいのか

評価は、Llama-3 系と Qwen-3 系を対象に、Alpaca、GSM8K、UltraFeedback、HumanEval の4データセットで行われています。
標準設定では、target model は 4×H100、SSDでは非同期の draft を別の1×H100 に置き、batch size 1、greedy decoding で比較しています。
Llama-3.1-70B には Llama-3.2-1B を draft として使い、各ステップで5トークンを提案する設定です。

結果はかなり印象的です。
Llama-3.1-Instruct 70B の4データセット平均で、自己回帰ベースラインに対して約4.7倍。
内訳は HumanEvalで5.2倍、UltraFeedbackで3.9倍、Alpacaで4.1倍、GSM8Kで5.5倍と示されています。
さらに論文全体の要約としては、最適化済み speculative decoding に対して最大2倍、自己回帰生成に対して最大5倍の高速化をうたっています。

しかも重要なのは、単に1リクエストの待ち時間を縮めただけではないことです。
Figure 7では、SSDがthroughput-latency Pareto frontierを押し広げたと説明されています。
少し平たく言えば、「速さ」と「さばける量」の両方で、従来よりよい折り合いを見つけた、ということです。
速くした代わりに極端に非効率になるのではなく、むしろ装置あたりの効率まで改善した点は、実運用にとってかなり大きい意味を持ちます。

それでも万能ではない。論文が正直に書いていること

この論文が信頼できると感じるのは、限界もきちんと書いているからです。
speculative decoding 系はそもそもレイテンシ削減が主戦場であり、すでに計算資源を目いっぱい使うスループット重視の大規模RLやオフライン生成では効きにくい、と著者たちは述べています。
検証という追加作業そのものが重荷になるからです。

それでも彼らは悲観していません。
EAGLEやトークン木型の手法との組み合わせ、draft用GPUを増やしたときのさらなる短縮、さらにはクラスタ単位で推論の先読み拠点を共有する設計まで、次の一手をいくつも示しています。
つまりSSDは完成形というより「LLM推論はまだ速くできる」と示した新しい座標軸なのです。

まとめ。AIの待ち時間は、まだ削れる

この論文の魅力は、派手な数字だけではありません。
LLM推論の「遅さ」を、モデルの知能そのものの問題ではなく、計算の流れの設計問題として捉え直したところにあります。
確認を待ってから次へ進むのではなく、確認される未来を先にいくつも育てておく。
たったそれだけの発想の転換が、推論の景色を大きく変えました。

AIの進化というと、つい「もっと大きいモデル」「もっと多いデータ」に目が向きがちです。
でも実際には、賢さを支えるのは、こうした見えにくい工夫かもしれません。
速さは、ただ便利さを増すだけではありません。
待ち時間が減ることで、人はAIを「実験道具」から「思考の相棒」へと感じやすくなります。
Saguaroが教えてくれるのは、未来のAIはもっと賢くなるだけでなく、もっと息の合う存在にもなれるということです。

参考：Speculative Speculative Decoding