Smart-trigger cost pattern#
A probléma#
Sok eval/retrieval-pipeline-ben drága második-pass modell van (cross-encoder reranker, NLI-judge, multi-judge ensemble), amit minden query/bullet-ra futtatva 5-25× lassítást ad. De: a queryk/bulletek többsége egyértelmű — egyszerű cosine retrieval / G-Eval verdict elég.
A pattern#
Két-fázisú pipeline:
- Fast-baseline (cheap, fast) mindig fut. Pl. cosine cosine top-K (165ms), single-pass G-Eval (200ms)
- Expensive-second-pass csak akkor, ha a fast-baseline confidence < threshold. Pl. reranker, NLI-judge, multi-judge
A trigger-threshold tunable. Default ~0.65 a cosine score-on, ~0.85 a G-Eval-en.
Élő példák (2026-05-17-obsidian-vault-2 session)#
Reranker smart-trigger (B-2)#
- Cosine-only baseline: 154ms / query
- Pure reranker (bge-reranker-v2-m3): 13789ms / query (RAM-pressure)
- Smart-rerank (cosine + reranker csak ha max_score<0.65): 8333ms átlag = 1.65× speedup vs pure
- Skipped queries (max>0.65) 89-106× speedup
- 5-query bench: 2/5 skipped (session-pointer 0.668, nano-banana 0.726), 3/5 triggered
ENV: RERANK_TRIGGER_THRESHOLD=0.65
NLI Layer 2.5 (B-1+B-3)#
- G-Eval Layer-2 mindig fut (cheap, 200ms)
- NLI-judge (DeBERTa-v3, 530-600ms) csak auto-prop kandidátra (route="auto-prop" already), nem batch-preview vagy discard-ra
- Cost-savings: ~80% (NLI nem fut a discard-okra)
ENV: VAULT_NLI_VETO=0 (default OFF, opt-in shadow-mode)
A tunable threshold beállítása#
- Empirikus: futtass 30-50 sample-t baseline-on, nézd meg a hisztogramot. A bimodális distribution alacsony-magas score-okra → a két mód közötti dip-pont = jó threshold
- Default ajánlott: cosine 0.65 (general retrieval), G-Eval 0.85 (high-confidence), NLI threshold 0.5 (entailment-prob)
- Adaptive: heti
vault-crystallize-monitorcron loggolja az auto-rate-et / revert-rate-et, és ajánl threshold-finomítást
Mikor érdemes alkalmazni#
- ✅ Két-modellű pipeline (cheap baseline + expensive second-pass)
- ✅ Latency-sensitive workflow (interaktív, real-time)
- ✅ Cost-sensitive workflow (LLM-judge per-token)
- ✅ Imbalanced distribution (a többség "easy", kisebbség "hard")
Élő ROI-tábla#
| Pipeline | Cheap baseline | Expensive second-pass | Trigger | Cost-savings | Forrás |
|---|---|---|---|---|---|
| Vault-search rerank | cosine (sub-ms) | bge-reranker-v2-m3 cross-enc | max-cos < 0.65 | 1.65× (3/5 trigger 2/5 skip) | ../06-Audits/2026-05-17 B-2 reranker smart-trigger |
| Crystallize Layer 2.5 | G-Eval verdict | NLI DeBERTa entailment | csak auto-prop kandidátra | 5-9× (5/9 discard skipped) | ../06-Audits/2026-05-17 B-1 NLI Layer 2.5 integration |
| Crystallize Layer 2.6 | NLI verdict | vault-coherence-check NLI×5 neighbours | csak auto-prop post-NLI | 9× (5/9 discard + 0/4 NLI-veto skipped) | ../06-Audits/2026-05-17 Layer 2.6 vault-coherence integration |
| OmniRoute cascade (3-szintű) | rule-based / cosine | claude-code subagent | confidence < threshold per-level | 36.4% auto vs deep-only | ../06-Audits/2026-05-17 OmniRoute cascade skeleton |
| SelfCheckGPT N=3 | G-Eval single | 3× G-Eval re-run (Manakul 2023) | borderline-band 0.70-0.85 | 6× vs naiv-N=3-all | ../06-Audits/2026-05-17 SelfCheckGPT borderline-filter skeleton |
A 3-szintű cascade (fast / balanced / deep) + a borderline-band-trigger két új alminta a 2-fázisú alapra. Mindkettő reproducible $0 cost claude-code subagent-fanout-tal.
Kapcsolódó#
- g-eval-bias-mitigation-pattern — G-Eval bias-mitigation, ami önmagában csökkenti az auto-prop-ot, így a smart-trigger jobban érvényesül
- sv-01-memory-architecture — B-2 research
- multi-layer-safety-gate — kapcsolódó safety-pattern
- sprint-day-0-skeleton-first — kapcsolódó skeleton-pattern
- layered-eval-cascading-pattern — több-szintű cascading (G-Eval → NLI → Coherence)