evals.stream Benchmark LLM · Italiano

Ultime 5 run

ModelloEvalScoringTempoCostoPunteggio
Fable 5AIME 2024 in italiano: matematica da competizionenumeric8m 46s$2.2100100.0%
Opus 4.8GPQA Biologia in italiano: scienza a livello PhDmcq4m 09s$0.485263.3%
Sonnet 5GPQA Biologia in italiano: scienza a livello PhDmcq16m 37s$0.860553.3%
Sonnet 4.6GPQA Biologia in italiano: scienza a livello PhDmcq7m 16s$0.372850.0%
Opus 4.8GPQA Chimica in italiano: scienza a livello PhDmcq5m 33s$0.633090.0%

Evals

Ogni benchmark, con quante domande e su quanti modelli è stato eseguito.