Kihagyás

Crystallize-health snapshot#

TL;DR#

Heti JSON+MD snapshot a 11.11crystallize G-Eval pipeline egészségéről — auto-prop rate, revert-rate, threshold-recommendation, false-positive count. Generated by vault-crystallize-monitor [--weeks N] [--json], output 06-Audits/crystallize-health-YYYY-MM-DD.json + trending shadow-monitoring-trend.md. A snapshot a threshold-ramp protokoll input-ja: Shadow=1.0 → Conservative=0.95 → Aggressive=0.85 (lásd crystallize-threshold-ramp).

Háttér#

A B-1 sprint Week 3-4 (2026-05-17) feltöltötte a G-Eval scoring infrát (g-eval-bias-mitigation-pattern). Az auto-prop-feature production-ramping előtt shadow-mode-ban futott 4+ héten keresztül, hogy mérhető legyen a:

  • false-positive rate (Pass-ított bullet ami valójában téves)
  • false-negative rate (Fail-ített bullet ami valójában korrekt)
  • revert-rate (auto-prop után user crystallize-revert-tel visszavont)
  • inter-rater agreement (G-Eval vs human-spot-check)

A health-snapshot ennek a 4 hetes signal-batch-nek a rolling aggregate-je. Ramp-decision csak akkor megy a következő szintre, ha mind a 4 metrika threshold alatt marad.

Output struktúra#

{
  "snapshot_date": "2026-05-18",
  "weeks_aggregated": 4,
  "total_bullets": 142,
  "auto_prop_rate": 0.621,
  "auto_prop_count": 88,
  "revert_rate": 0.034,
  "revert_count": 3,
  "false_positive_count": 5,
  "false_negative_count": 2,
  "threshold_current": 1.0,
  "threshold_recommendation": "PASS-with-Wait",
  "per_target_breakdown": {
    "wiki": { "auto_prop_rate": 1.0, "count": 42 },
    "ADR": { "auto_prop_rate": 0.5, "count": 8 },
    "Glossary": { "auto_prop_rate": 0.75, "count": 4 }
  },
  "trend_signal": "stable"
}

Mérőszámok jelentése#

  • auto_prop_rate — Learning-bullet-ek hány %-a éri el az auto-prop threshold-ot (~0.6-0.7 healthy zone)
  • revert_rate — auto-apply után user-revert; < 5% target (különben threshold túl agresszív)
  • false_positive_count — manual spot-check during weekly retro; Pass-ított de tévesen propagált bullet
  • false_negative_count — Fail-ített de valójában korrekt bullet (cost: nem propagálódott, kézzel kell)
  • per_target_breakdown — wiki/ADR/Glossary/Memory szétbontás; wiki tipikusan 100% (low-stakes), ADR 50% (high-stakes)
  • threshold_recommendation — "PASS-with-Wait" (jelenlegi szint OK, no-change), "ramp-down" (agresszívabbá tehető), "ramp-up" (veszélyes, visszafogni)

Threshold-ramp signal-mátrix#

Auto-prop rate Revert rate False-pos Decision
≥ 0.5 ≤ 5% ≤ 5/100 PASS — ramp-down OK (1.0 → 0.95)
0.3-0.5 ≤ 5% ≤ 5/100 PASS-with-Wait — 1-2 hét még shadow
≥ 0.5 > 5% bármi FAIL — ramp-up (vissza shadow)
bármi bármi > 10/100 FAIL — bias-mitigation re-tune

Anti-pattern#

  • Single-snapshot decision — egy hetes adat noise-os; minimum 4 hetes rolling avg
  • Auto-ramp script — production-ramp NE legyen automata, mindig human-in-the-loop a threshold-konfig-on
  • Per-bullet manual review nélkül — sample-of-10 spot-check kötelező minden snapshot-hoz
  • Threshold-bypass crystallize-revert figyelmen kívül hagyásával — a revert event egy direkt user-feedback, semmi sem mérvadóbb

Reusable szabályok#

  1. Weekly cron Sun 05:00 — post-vault-cleanup és audit-scripteket
  2. 4-week rolling aggregate — anti-noise gate
  3. JSON + MD output — JSON machine, MD human-readable
  4. Per-target breakdown — wiki/ADR/Glossary külön, mert eltérő stakes
  5. Threshold hot-reload~/.vault-config/crystallize-threshold.txt (NEM script-edit)
  6. Spot-check minden week — N=10 random bullet manual ground-truth label
  7. Revert mindig audit-eventet írcrystallize-revert <hash> log a 06-Audits/revert-log.md-be

Buktatók#

  • A --weeks N arg hot-reload ELŐTT olvas, így ha threshold-config recently változott, a régi adat még az óvval mért szinten van
  • auto_prop_rate magas (~1.0) önmagában NEM jó signal — ha közben revert-rate is felmegy, threshold túl-permissive
  • Bias-mitigation v0.3 kalibráció (g-eval-bias-mitigation-pattern) lecsökkenti a Pass-recall-t — a snapshot ezt ne értelmezze ramp-up jelnek

Kapcsolódó#