Crystallize-health snapshot#
TL;DR#
Heti JSON+MD snapshot a 11.11crystallize G-Eval pipeline egészségéről — auto-prop rate, revert-rate, threshold-recommendation, false-positive count. Generated by vault-crystallize-monitor [--weeks N] [--json], output 06-Audits/crystallize-health-YYYY-MM-DD.json + trending shadow-monitoring-trend.md. A snapshot a threshold-ramp protokoll input-ja: Shadow=1.0 → Conservative=0.95 → Aggressive=0.85 (lásd crystallize-threshold-ramp).
Háttér#
A B-1 sprint Week 3-4 (2026-05-17) feltöltötte a G-Eval scoring infrát (g-eval-bias-mitigation-pattern). Az auto-prop-feature production-ramping előtt shadow-mode-ban futott 4+ héten keresztül, hogy mérhető legyen a:
- false-positive rate (Pass-ított bullet ami valójában téves)
- false-negative rate (Fail-ített bullet ami valójában korrekt)
- revert-rate (auto-prop után user
crystallize-revert-tel visszavont) - inter-rater agreement (G-Eval vs human-spot-check)
A health-snapshot ennek a 4 hetes signal-batch-nek a rolling aggregate-je. Ramp-decision csak akkor megy a következő szintre, ha mind a 4 metrika threshold alatt marad.
Output struktúra#
{
"snapshot_date": "2026-05-18",
"weeks_aggregated": 4,
"total_bullets": 142,
"auto_prop_rate": 0.621,
"auto_prop_count": 88,
"revert_rate": 0.034,
"revert_count": 3,
"false_positive_count": 5,
"false_negative_count": 2,
"threshold_current": 1.0,
"threshold_recommendation": "PASS-with-Wait",
"per_target_breakdown": {
"wiki": { "auto_prop_rate": 1.0, "count": 42 },
"ADR": { "auto_prop_rate": 0.5, "count": 8 },
"Glossary": { "auto_prop_rate": 0.75, "count": 4 }
},
"trend_signal": "stable"
}
Mérőszámok jelentése#
auto_prop_rate— Learning-bullet-ek hány %-a éri el az auto-prop threshold-ot (~0.6-0.7 healthy zone)revert_rate— auto-apply után user-revert; < 5% target (különben threshold túl agresszív)false_positive_count— manual spot-check during weekly retro; Pass-ított de tévesen propagált bulletfalse_negative_count— Fail-ített de valójában korrekt bullet (cost: nem propagálódott, kézzel kell)per_target_breakdown— wiki/ADR/Glossary/Memory szétbontás; wiki tipikusan 100% (low-stakes), ADR 50% (high-stakes)threshold_recommendation— "PASS-with-Wait" (jelenlegi szint OK, no-change), "ramp-down" (agresszívabbá tehető), "ramp-up" (veszélyes, visszafogni)
Threshold-ramp signal-mátrix#
| Auto-prop rate | Revert rate | False-pos | Decision |
|---|---|---|---|
| ≥ 0.5 | ≤ 5% | ≤ 5/100 | PASS — ramp-down OK (1.0 → 0.95) |
| 0.3-0.5 | ≤ 5% | ≤ 5/100 | PASS-with-Wait — 1-2 hét még shadow |
| ≥ 0.5 | > 5% | bármi | FAIL — ramp-up (vissza shadow) |
| bármi | bármi | > 10/100 | FAIL — bias-mitigation re-tune |
Anti-pattern#
- Single-snapshot decision — egy hetes adat noise-os; minimum 4 hetes rolling avg
- Auto-ramp script — production-ramp NE legyen automata, mindig human-in-the-loop a threshold-konfig-on
- Per-bullet manual review nélkül — sample-of-10 spot-check kötelező minden snapshot-hoz
- Threshold-bypass
crystallize-revertfigyelmen kívül hagyásával — a revert event egy direkt user-feedback, semmi sem mérvadóbb
Reusable szabályok#
- Weekly cron Sun 05:00 — post-
vault-cleanupés audit-scripteket - 4-week rolling aggregate — anti-noise gate
- JSON + MD output — JSON machine, MD human-readable
- Per-target breakdown — wiki/ADR/Glossary külön, mert eltérő stakes
- Threshold hot-reload —
~/.vault-config/crystallize-threshold.txt(NEM script-edit) - Spot-check minden week — N=10 random bullet manual ground-truth label
- Revert mindig audit-eventet ír —
crystallize-revert <hash>log a06-Audits/revert-log.md-be
Buktatók#
- A
--weeks Narg hot-reload ELŐTT olvas, így ha threshold-config recently változott, a régi adat még az óvval mért szinten van auto_prop_ratemagas (~1.0) önmagában NEM jó signal — ha közben revert-rate is felmegy, threshold túl-permissive- Bias-mitigation v0.3 kalibráció (g-eval-bias-mitigation-pattern) lecsökkenti a Pass-recall-t — a snapshot ezt ne értelmezze ramp-up jelnek
Kapcsolódó#
- Crystallization-protocol — overall workflow
- crystallize-threshold-ramp — ramp-protokoll részletek
- g-eval-bias-mitigation-pattern — scoring layer
- ../06-Audits/2026-05-17 shadow-monitoring extension — 11 új metrika
- sv-05-crystallization-automation — sprint-narrative
- vault-cleanup-multi-script-policy — cron-ütemezés