Crystallize-health snapshot#

TL;DR#

Heti JSON+MD snapshot a 11.11crystallize G-Eval pipeline egészségéről — auto-prop rate, revert-rate, threshold-recommendation, false-positive count. Generated by vault-crystallize-monitor [--weeks N] [--json], output 06-Audits/crystallize-health-YYYY-MM-DD.json + trending shadow-monitoring-trend.md. A snapshot a threshold-ramp protokoll input-ja: Shadow=1.0 → Conservative=0.95 → Aggressive=0.85 (lásd crystallize-threshold-ramp).

Háttér#

A B-1 sprint Week 3-4 (2026-05-17) feltöltötte a G-Eval scoring infrát (g-eval-bias-mitigation-pattern). Az auto-prop-feature production-ramping előtt shadow-mode-ban futott 4+ héten keresztül, hogy mérhető legyen a:

false-positive rate (Pass-ított bullet ami valójában téves)
false-negative rate (Fail-ített bullet ami valójában korrekt)
revert-rate (auto-prop után user crystallize-revert-tel visszavont)
inter-rater agreement (G-Eval vs human-spot-check)

A health-snapshot ennek a 4 hetes signal-batch-nek a rolling aggregate-je. Ramp-decision csak akkor megy a következő szintre, ha mind a 4 metrika threshold alatt marad.

Output struktúra#

{
  "snapshot_date": "2026-05-18",
  "weeks_aggregated": 4,
  "total_bullets": 142,
  "auto_prop_rate": 0.621,
  "auto_prop_count": 88,
  "revert_rate": 0.034,
  "revert_count": 3,
  "false_positive_count": 5,
  "false_negative_count": 2,
  "threshold_current": 1.0,
  "threshold_recommendation": "PASS-with-Wait",
  "per_target_breakdown": {
    "wiki": { "auto_prop_rate": 1.0, "count": 42 },
    "ADR": { "auto_prop_rate": 0.5, "count": 8 },
    "Glossary": { "auto_prop_rate": 0.75, "count": 4 }
  },
  "trend_signal": "stable"
}

Mérőszámok jelentése#

auto_prop_rate — Learning-bullet-ek hány %-a éri el az auto-prop threshold-ot (~0.6-0.7 healthy zone)
revert_rate — auto-apply után user-revert; < 5% target (különben threshold túl agresszív)
false_positive_count — manual spot-check during weekly retro; Pass-ított de tévesen propagált bullet
false_negative_count — Fail-ített de valójában korrekt bullet (cost: nem propagálódott, kézzel kell)
per_target_breakdown — wiki/ADR/Glossary/Memory szétbontás; wiki tipikusan 100% (low-stakes), ADR 50% (high-stakes)
threshold_recommendation — "PASS-with-Wait" (jelenlegi szint OK, no-change), "ramp-down" (agresszívabbá tehető), "ramp-up" (veszélyes, visszafogni)

Threshold-ramp signal-mátrix#

Auto-prop rate	Revert rate	False-pos	Decision
≥ 0.5	≤ 5%	≤ 5/100	PASS — ramp-down OK (1.0 → 0.95)
0.3-0.5	≤ 5%	≤ 5/100	PASS-with-Wait — 1-2 hét még shadow
≥ 0.5	> 5%	bármi	FAIL — ramp-up (vissza shadow)
bármi	bármi	> 10/100	FAIL — bias-mitigation re-tune

Anti-pattern#

Single-snapshot decision — egy hetes adat noise-os; minimum 4 hetes rolling avg
Auto-ramp script — production-ramp NE legyen automata, mindig human-in-the-loop a threshold-konfig-on
Per-bullet manual review nélkül — sample-of-10 spot-check kötelező minden snapshot-hoz
Threshold-bypass crystallize-revert figyelmen kívül hagyásával — a revert event egy direkt user-feedback, semmi sem mérvadóbb

Reusable szabályok#

Weekly cron Sun 05:00 — post-vault-cleanup és audit-scripteket
4-week rolling aggregate — anti-noise gate
JSON + MD output — JSON machine, MD human-readable
Per-target breakdown — wiki/ADR/Glossary külön, mert eltérő stakes
Threshold hot-reload — ~/.vault-config/crystallize-threshold.txt (NEM script-edit)
Spot-check minden week — N=10 random bullet manual ground-truth label
Revert mindig audit-eventet ír — crystallize-revert <hash> log a 06-Audits/revert-log.md-be

Buktatók#

A --weeks N arg hot-reload ELŐTT olvas, így ha threshold-config recently változott, a régi adat még az óvval mért szinten van
auto_prop_rate magas (~1.0) önmagában NEM jó signal — ha közben revert-rate is felmegy, threshold túl-permissive
Bias-mitigation v0.3 kalibráció (g-eval-bias-mitigation-pattern) lecsökkenti a Pass-recall-t — a snapshot ezt ne értelmezze ramp-up jelnek

Kapcsolódó#

Crystallization-protocol — overall workflow
crystallize-threshold-ramp — ramp-protokoll részletek
g-eval-bias-mitigation-pattern — scoring layer
../06-Audits/2026-05-17 shadow-monitoring extension — 11 új metrika
sv-05-crystallization-automation — sprint-narrative
vault-cleanup-multi-script-policy — cron-ütemezés