Ultime 5 run
| Modello | Eval | Scoring | Tempo | Costo | Punteggio |
|---|---|---|---|---|---|
| Fable 5 | AIME 2024 in italiano: matematica da competizione | numeric | 8m 46s | $2.2100 | 100.0% |
| Opus 4.8 | GPQA Biologia in italiano: scienza a livello PhD | mcq | 4m 09s | $0.4852 | 63.3% |
| Sonnet 5 | GPQA Biologia in italiano: scienza a livello PhD | mcq | 16m 37s | $0.8605 | 53.3% |
| Sonnet 4.6 | GPQA Biologia in italiano: scienza a livello PhD | mcq | 7m 16s | $0.3728 | 50.0% |
| Opus 4.8 | GPQA Chimica in italiano: scienza a livello PhD | mcq | 5m 33s | $0.6330 | 90.0% |
Evals
Ogni benchmark, con quante domande e su quanti modelli è stato eseguito.