Kashi · token optimization · model routing

モデル振り分け — タスクの重さでコストを下げる

サブエージェントの中身(生成・監査・派生)を、難しさに応じて haiku / sonnet / opus に自動で振り分ける。重い判断だけ opus、機械的な作業は haiku。あなたが毎回モデルを選ぶ必要はない。

一言で

記事 1 本を作るのに、内部では 7〜8 体のサブエージェントが走る(種・本文・監査4種・仕上げ・派生)。
これまでは 全部があなたのメイン /model を継承していた(=opus のとき、禁止語チェックのような単純作業まで opus で課金)。
今は各工程が必要なだけのモデルで走る。節約はおおよそ opus 一律比 45〜55%。品質が要る判断(研究を盛らない・当事者が頷くか)は opus のまま据え置き。

価格($ / 100万トークン・入力/出力)

モデル入力 / 出力opus比役割
Fable 5$10 / $502.0×知能の天井・最遅。“節約”の逆。最適化には使わない。
Opus 4.8$5 / $251.0×判断系の天井(fidelity・冷読・関連性vet・統合)
Sonnet 4.6$3 / $15~0.6×速度/コスト両立。生成・量産(種・本文・仕上げ)
Haiku 4.5$1 / $5~0.2×単純分類/抽出/テンプレ(監査・派生)。200K context

相対コスト: haiku ≈ opus の 1/5・sonnet ≈ 1/1.7・fable = 2倍

振り分けポリシー(バランス・確定 2026-06-11)

重さモデル工程(stage)
軽 — 機械的/抽出/テンプレhaikudoc(禁止語監査) · crf(AI臭リント) · derive(各SNS派生) · extract/dedup/整形
中 — 生成sonnetseed(種) · body(本文) · finalize(仕上げ) · discover(検索+実在検証) · distill · analyze
重 — 判断opusfid(研究を盛らない) · rdr(当事者recognition冷読) · vet(関連性判断) · synth(統合)
臨界 — 稀fable既定では不使用。最高判断が要る一発のみ手動で model:'fable'

Fable をどう使うか(推奨)

Fable は opus の 2 倍のコストで最遅。トークン最適化には決して使わない。
使うのは「2 倍払ってでも最高の判断が一発欲しい」稀なケースだけ — 例: canon 昇格の最終可否、投資家向け資料の致命的な詰め、複数の重い分析を 1 本に統合する最終 synthesis。そのときだけ、その 1 呼び出しに手動で model:'fable' を指定する。量産・監査・派生には絶対に使わない。

仕組み — どこで効くか

振り分けは エンジン生成器に埋め込み済み。LLM トリアージ専用エージェントは作っていない(=それ自体の追加コストを回避)。単一の真実源は workspace/scripts/discovery-leads/model_policy.py

生成器体数振り分け
make_engine.py(JP note 認識記事)7体/源泉seed/body/final=S · fid/rdr=O · doc/crf=H
make_engine_en.py(EN 認識記事)7体/源泉同上
make_engine_study.py(study-forward)8体/cluster上記 + derive=H
make_scout_wf.py(研究スカウト)9トピック×2段discover=S · vet=O

study 1 cluster(8体)の中身

seedbodyfiddocrdrcrffinalderive
SSOHOHSH

opus 2 体(重い判断)+ sonnet 3 体(生成)+ haiku 3 体(機械作業)。旧 8体opus一律 ≈ 8.0 単位 → 今 ≈ 2.0 + 1.8 + 0.6 = 約4.4 単位(〜45%減)。記事は派生なしの 7体で同様に〜50%減。

あなたが押さえる 1 点

メインの /modelあなたの判断でOK — 雑務は /model haiku、通常は default(opus)。
エンジンは中で自動的に各工程を最適モデルに振るので、メインが opus でも禁止語チェックは haiku で走る。つまり「最適化のためにメインを落とさなきゃ」と気にする必要はない。記事工場・スカウトを回すだけで節約は効いている。

将来のレバー(今回は未着手)

workspace/strategy/note_factory/MODEL_ROUTING.html · policy source = workspace/scripts/discovery-leads/model_policy.py · 確定 2026-06-11 · バランス振り分け/ポリシー埋込み(トリアージagent無し)