Evaluations

Judge scores, rubrics, and conversation quality across all runs.

Average score
8.67 / 10

3 evaluations across 2 runs

Pass rate
100%

Share of cases scoring 7 or higher

Fail rate
0%

Share of cases scoring below 4

Latest run
8.50 / 10-0.50

Previous run: 9.00 / 10

Score over time

Average judge score per run, ordered from oldest to newest. Hover a point to inspect that run.

024681028 Apr28 Apr

Score distribution

How the latest evaluation per case is distributed across the 1–10 scale.

12345678910

Lowest-scoring scenarios

Scenarios where Amorza underperforms — prioritise these first.

  1. 1

    Partner pravidelně lajkuje fotky jedné konkrétní ženy na Instagramu — bývalé kolegyně. Občas si vyměňují komentáře, které působí přátelsky, ale s nádechem flirtu. Když na to přišla řeč, partner to shodil jako přeháněnou reakci. Žádný důkaz fyzické nevěry neexistuje.

    1 eval · 1 run

    8.0/10
  2. 2

    Náhodně viděná notifikace od kolegyně partnera ("díky za včerejšek 🙂") spustila opakované kontrolování jeho telefonu, kdykoli je ve sprše. Zatím se nenašlo nic podezřelého, ale posedlost tím, že "něco tají", roste. V pozadí je předchozí zkušenost s nevěrou. Partner o kontrolování netuší.

    2 evals · 2 runs

    9.0/10