Ultime 5 run
| Modello | Eval | Scoring | Tempo | Costo | Punteggio |
|---|---|---|---|---|---|
| Sonnet 5 | IFEval HARD: istruzioni multiple e vincolanti (in italiano) | ifeval | 4m 54s | $0.2588 | 81.8% |
| Sonnet 5 | Seguire le istruzioni alla lettera (IFEval in italiano) | ifeval | 2m 20s | $0.1125 | 92.3% |
| Sonnet 4.6 | IFEval HARD: istruzioni multiple e vincolanti (in italiano) | ifeval | 3m 09s | $0.1309 | 90.9% |
| Sonnet 4.6 | Seguire le istruzioni alla lettera (IFEval in italiano) | ifeval | 1m 31s | $0.0486 | 96.2% |
| Opus 4.8 | IFEval HARD: istruzioni multiple e vincolanti (in italiano) | ifeval | 3m 29s | $0.2973 | 95.5% |
Evals
Ogni benchmark, con quante domande e su quanti modelli è stato eseguito.