Kihagyás

Smart-trigger cost pattern#

A probléma#

Sok eval/retrieval-pipeline-ben drága második-pass modell van (cross-encoder reranker, NLI-judge, multi-judge ensemble), amit minden query/bullet-ra futtatva 5-25× lassítást ad. De: a queryk/bulletek többsége egyértelmű — egyszerű cosine retrieval / G-Eval verdict elég.

A pattern#

Két-fázisú pipeline:

  1. Fast-baseline (cheap, fast) mindig fut. Pl. cosine cosine top-K (165ms), single-pass G-Eval (200ms)
  2. Expensive-second-pass csak akkor, ha a fast-baseline confidence < threshold. Pl. reranker, NLI-judge, multi-judge

A trigger-threshold tunable. Default ~0.65 a cosine score-on, ~0.85 a G-Eval-en.

Élő példák (2026-05-17-obsidian-vault-2 session)#

Reranker smart-trigger (B-2)#

  • Cosine-only baseline: 154ms / query
  • Pure reranker (bge-reranker-v2-m3): 13789ms / query (RAM-pressure)
  • Smart-rerank (cosine + reranker csak ha max_score<0.65): 8333ms átlag = 1.65× speedup vs pure
  • Skipped queries (max>0.65) 89-106× speedup
  • 5-query bench: 2/5 skipped (session-pointer 0.668, nano-banana 0.726), 3/5 triggered

ENV: RERANK_TRIGGER_THRESHOLD=0.65

NLI Layer 2.5 (B-1+B-3)#

  • G-Eval Layer-2 mindig fut (cheap, 200ms)
  • NLI-judge (DeBERTa-v3, 530-600ms) csak auto-prop kandidátra (route="auto-prop" already), nem batch-preview vagy discard-ra
  • Cost-savings: ~80% (NLI nem fut a discard-okra)

ENV: VAULT_NLI_VETO=0 (default OFF, opt-in shadow-mode)

A tunable threshold beállítása#

  • Empirikus: futtass 30-50 sample-t baseline-on, nézd meg a hisztogramot. A bimodális distribution alacsony-magas score-okra → a két mód közötti dip-pont = jó threshold
  • Default ajánlott: cosine 0.65 (general retrieval), G-Eval 0.85 (high-confidence), NLI threshold 0.5 (entailment-prob)
  • Adaptive: heti vault-crystallize-monitor cron loggolja az auto-rate-et / revert-rate-et, és ajánl threshold-finomítást

Mikor érdemes alkalmazni#

  • ✅ Két-modellű pipeline (cheap baseline + expensive second-pass)
  • ✅ Latency-sensitive workflow (interaktív, real-time)
  • ✅ Cost-sensitive workflow (LLM-judge per-token)
  • ✅ Imbalanced distribution (a többség "easy", kisebbség "hard")

Élő ROI-tábla#

Pipeline Cheap baseline Expensive second-pass Trigger Cost-savings Forrás
Vault-search rerank cosine (sub-ms) bge-reranker-v2-m3 cross-enc max-cos < 0.65 1.65× (3/5 trigger 2/5 skip) ../06-Audits/2026-05-17 B-2 reranker smart-trigger
Crystallize Layer 2.5 G-Eval verdict NLI DeBERTa entailment csak auto-prop kandidátra 5-9× (5/9 discard skipped) ../06-Audits/2026-05-17 B-1 NLI Layer 2.5 integration
Crystallize Layer 2.6 NLI verdict vault-coherence-check NLI×5 neighbours csak auto-prop post-NLI 9× (5/9 discard + 0/4 NLI-veto skipped) ../06-Audits/2026-05-17 Layer 2.6 vault-coherence integration
OmniRoute cascade (3-szintű) rule-based / cosine claude-code subagent confidence < threshold per-level 36.4% auto vs deep-only ../06-Audits/2026-05-17 OmniRoute cascade skeleton
SelfCheckGPT N=3 G-Eval single 3× G-Eval re-run (Manakul 2023) borderline-band 0.70-0.85 6× vs naiv-N=3-all ../06-Audits/2026-05-17 SelfCheckGPT borderline-filter skeleton

A 3-szintű cascade (fast / balanced / deep) + a borderline-band-trigger két új alminta a 2-fázisú alapra. Mindkettő reproducible $0 cost claude-code subagent-fanout-tal.

Kapcsolódó#