Ultime 5 run
| Modello | Eval | Scoring | Tempo | Costo | Punteggio |
|---|---|---|---|---|---|
| Fable 5 | Problemi facili che gli LLM sbagliano | mcq | 2m 00s | $0.1928 | 86.7% |
| Fable 5 | GPQA Fisica in italiano: scienza a livello PhD | mcq | 4m 31s | $1.0130 | 96.7% |
| Fable 5 | GPQA Biologia in italiano: scienza a livello PhD | mcq | 1m 31s | $0.2283 | 0.0% |
| Fable 5 | GPQA Chimica in italiano: scienza a livello PhD | mcq | 6m 36s | $1.4589 | 83.3% |
| Fable 5 | GPQA-Diamond in italiano: scienza a livello PhD | mcq | 4m 33s | $0.9992 | 63.3% |
Evals
Ogni benchmark, con quante domande e su quanti modelli è stato eseguito.