LLM-as-judge evaluation pattern#

[!info] Mit hív életre Ahol scale-elhető minőség-elbírálás kell sok output-ra, de emberi reviewer drága/lassú. Az LLM-as-judge egy második LLM-mel értékelteti az első LLM-output-ot rubrika-szerinti score-ral. A klasszikus alkalmazás: agent-generálta tartalom auto-gate-elése bizonyossági küszöbbel.

A pattern lényege#

A naiv pipeline: Generator-LLM → Output → Human-review. Skálázódásnál szűk: emberi reviewer ~10-50 output / nap / fő. Az LLM-as-judge átveszi a reviewer szerepét:

Generator-LLM előállít egy output-ot (text, code, decision)
Judge-LLM (általában másik prompt, esetenként másik modell) rubrika-prompt-tal értékeli az output-ot
Rubrika strukturált — pontszám 0-1 + Pass/Fail + indoklás
Threshold-gate dönt: auto-accept ha score > threshold, manual-review ha alatta

Variánsok#

Variáns	Mi jellemzi	Mikor
G-Eval (Naive LLM-as-judge)	1 LLM-call, CoT-prompt + score-output	Gyors gate, low-stakes
Critique Shadowing	Judge-LLM few-shot kalibrációval, ahol az emberi reviewer 20-50 példán pre-jelölt	Mid-stakes, jobb-recall kell
Self-RAG	Generator önmagát értékeli token-szinten + retrieval-rel	Real-time generation steering
NLI-based	Natural Language Inference judge (logical-entailment) → robusztusabb mint scoring	Hallucination-detection
Multi-judge ensemble	3-5 judge szavaz, többségi-vote	High-stakes (medical, legal)
Pairwise comparison	Judge két output-ot kap és A/B-t mond	Preference-dataset building

Buktatók#

1. Position bias#

A judge a listán előrébb-szereplő output-ot preferálja statisztikailag. Mitigation: randomizált sorrend + két irányú comparison.

2. Verbosity bias#

A judge a hosszabb output-ot jobbnak ítéli. Mitigation: rubrikába explicit "tömörség is érték".

3. Self-enhancement bias#

A judge a saját modell-családja output-ját jobbnak ítéli (GPT-4 jobbnak látja a GPT-4-et mint Claude-ot). Mitigation: cross-family judge + bias-correction prompt (g-eval-bias-mitigation-pattern).

4. False-Pass overconfidence#

A judge sokszor mindent Pass-nak ítél (lazy bias). Mitigation: kalibrációs-set, threshold-adjustment, force-distribution.

A judge nem veszi észre ha az input-context hiányos (pl. a Generator-nek nem adtak meg minden source-t). Mitigation: NLI-réteg külön (nli-eval-input-completeness-trap).

A vault konkrét megvalósulása#

A vault SV B-1 layer (crystallization) használja:

Generator: Session-záró agent javasol propagation-target-eket (5-15 bullet)
   ↓
Judge: G-Eval LLM-as-judge subagent (Claude Code fanout, $0 cost)
   ↓ rubrika: routing-pertinence + evidence-strength + non-duplication
Output: per-bullet score (0-1) + Pass/Fail + brief justification
   ↓
Threshold-gate:
   • score >= 0.95 → auto-prop (Conservative mode)
   • 0.85 ≤ score < 0.95 → preview-be (default Shadow mode)
   • score < 0.85 → discard-candidate

Confidence-threshold: ~/.vault-config/crystallize-threshold.txt (hot-reload). Production-ramp protokoll: shadow → conservative → aggressive (crystallize-threshold-ramp).

A 4-rétegű quality-gate (vault implementáció)#

A vault SV B-1 a single-judge helyett cascading 4-layer eval-t használ:

Layer	Mit ellenőriz	Cost	Eliminálja
L1: Rule-based	Formátum, frontmatter-egzistencia, wikilink-validity	$0	~30% trivial-Fail
L2: G-Eval scoring	Routing-pertinence + evidence + relevance	$0 (subagent-fanout)	~40% borderline
L2.5: NLI-judge	Logical-entailment a bullet és target közt	$0 (helyi modell)	~10% subtle-mismatch
L2.6: Coherence-check	Cross-bullet contradiction-detection	$0 (KO-DB query)	~5% contradiction

A cascading-pattern előnye: drága L3-réteg (manual-review) csak ~15%-ra fut, az L1-L2.6 átszűri a tisztán gondolható eseteket. Részletek: layered-eval-cascading-pattern.

Bias-mitigation prompt-template#

A G-Eval bias-mitigation v0.3 (mért: conf 0.880→0.760, auto-prop 10/10→6/10) 4 bias-blokk + kalibrációs horgony:

Te egy SZIGORÚ judge vagy. Ezek a torzítások amelyeket TUDATOSAN kerülsz:
- Self-enhancement: NEM preferálod a saját modell-családod stílusát
- Verbosity: rövid és tömör output is lehet 1.0
- Position: a sorrend irreleváns
- Lazy-pass: nem mindent Pass-olsz; ha bizonytalan vagy, Fail

Kalibrációs horgony: az 1.0 score azt jelenti "valós példa, evidence-grounded, 
non-duplikált, helyes target". 0.5 az "elfogadható de határeset". 

Bias-self-check (CoT): mielőtt scorolnál, 1 mondatban válaszolj:
"Melyik bias-t kellene most legjobban kerülnöm ennél a bullet-nél?"

Lásd g-eval-bias-mitigation-pattern a teljes prompt-template-ért.

Mikor NE használj LLM-as-judge#

High-stakes, irreverzibilis műveletek (orvosi diagnózis, jogi döntés) — itt ember kell
Definíció-szerinti igazság (matematikai bizonyítás, kód-correctness) — itt unit-test / formal-prover
Kreatív értékítélet ahol nincs konszenzus — itt user-preferencia A/B teszt
Adversarial input — a judge prompt-injection-nel manipulálható, ha input untrusted

Source-evidence (KO-DB)#

LLM-as-judge token: 5 distinct subject, 10 fact, 3 source-type (adr + session + wiki)
Critique Shadowing token: 6 subject, 15 fact, 2 source-type (adr + wiki) — kalibrációs variáns
G-Eval LLM-as-judge token: 1 subject, 3 fact, 2 source-type — vault-specifikus implementáció
Top-source: 07-Decisions/2026-05-12 sv-7 continuous evaluation arch.md + 11-wiki/sv-07-continuous-evaluation.md

Kapcsolódó#

sv-07-continuous-evaluation — a vault SV-7 axis részletes terve
g-eval-bias-mitigation-pattern — bias-blokk prompt-template
layered-eval-cascading-pattern — L1-L2-L2.5-L2.6 cascading
nli-eval-input-completeness-trap — NLI-réteg az input-completeness-re
auto-propagation-confidence-gate — threshold-gate a propagáció előtt
crystallize-threshold-ramp — shadow → conservative → aggressive ramp protokoll
reranker-cost-optimization-not-size — judge-méret nem mindig egyenes arányos a quality-vel