NLI eval input-completeness trap#
A probléma#
Amikor egy LLM-judge (NLI, G-Eval, multi-judge) bemenete egy truncated preview-string (pl. első 120 karakter), és nem a full-text, akkor a verdict szisztematikus shift-et mutat a full-text-eredménytől:
- Az NLI a contradiction-jelek-et félreértelmezi mert nincs a context (pl. "X NEM működik" → preview-ban "X csak Y-on működik" — full-text-ben már OK)
- A G-Eval verbosity/halo-szignálok-ra téves rangsort ad
- A confidence-érték torzult mert a hypothesis és premise nem teljes-spektrumon összevethető
Élő példa (2026-05-17-obsidian-vault session)#
A B-3 L2 NLI-judge kalibráció (Phase 2.4) 20-sample-en preview-stringen futott: - "2 auto-prop bullet contradiction-t kapott" (#5 STT echo-loop, #10 brand-paradigma) - A "kulcs-insight" akkor az volt: "NLI szigorúbb mint G-Eval, soft-veto downgrade"
A B-1 NLI Layer 2.5 integráció (Phase 4.R2.3) ugyanazt a 2 bullet-et full-bullet-text-en futtatta: - Mindkettő entailment_prob 0.48 / 0.38 (NEM contradiction) - Pass-vote: True mindkettőn
A "kulcs-insight" valójában preview-bias volt, nem tartalom-issue. Ha akkor preview-on léptünk volna real-apply-ra, a 2 bullet-et hibásan downgrade-eltük volna.
A szabály#
MINDIG full-text-en futtass NLI/G-Eval/LLM-judge eval-t. Ha latency vagy token-cost miatt preview kéne:
- Document a trade-off-ot explicitly az audit-fájlban (preview-bias prevalencia mérve)
- Threshold-ot tighter-re állítsd preview-on (pl. NLI contradiction>0.7 helyett >0.85)
- Második-pass full-text csak a preview-flagged candidate-okra (smart-trigger pattern)
Vágott szöveg konkrét hatásai#
| Eval-modul | Preview-trap | Full-text |
|---|---|---|
| NLI-entailment | -0.30 entailment_prob (contradiction-shift) | baseline |
| G-Eval dim2 (verbosity) | -1.0 (rövidnek érzi) | baseline |
| G-Eval dim3 (reusability) | -0.5 (kontextus nélkül zsugorodik) | baseline |
(Mérések a 2026-05-17 session 2 contradiction-bullet-en.)
Mikor érdemes alkalmazni#
- ✅ Bármilyen LLM-judge audit-log nem-preview-mezőn futtatva
- ✅ Az audit-fájl tartalmazza a full-bullet hash-ét és full-text-ét, NEM csak preview-t
- ✅ A kalibrációs gold-set full-text-szel rögzítve (NEM preview)
Kapcsolódó#
- sv-07-continuous-evaluation — B-3 research
- g-eval-bias-mitigation-pattern — kapcsolódó eval-quality
- Crystallization-protocol — host protokoll