Evaluations
Judge scores, rubrics, and conversation quality across all runs.
3 evaluations across 2 runs
Share of cases scoring 7 or higher
Share of cases scoring below 4
Previous run: 9.00 / 10
Score over time
Average judge score per run, ordered from oldest to newest. Hover a point to inspect that run.
Score distribution
How the latest evaluation per case is distributed across the 1–10 scale.
Lowest-scoring scenarios
Scenarios where Amorza underperforms — prioritise these first.
- 18.0/10
Partner pravidelně lajkuje fotky jedné konkrétní ženy na Instagramu — bývalé kolegyně. Občas si vyměňují komentáře, které působí přátelsky, ale s nádechem flirtu. Když na to přišla řeč, partner to shodil jako přeháněnou reakci. Žádný důkaz fyzické nevěry neexistuje.
1 eval · 1 run
- 29.0/10
Náhodně viděná notifikace od kolegyně partnera ("díky za včerejšek 🙂") spustila opakované kontrolování jeho telefonu, kdykoli je ve sprše. Zatím se nenašlo nic podezřelého, ale posedlost tím, že "něco tají", roste. V pozadí je předchozí zkušenost s nevěrou. Partner o kontrolování netuší.
2 evals · 2 runs