evals.stream Benchmark LLM · Italiano

Ultime 5 run

ModelloEvalScoringTempoCostoPunteggio
Fable 5Problemi facili che gli LLM sbaglianomcq2m 00s$0.192886.7%
Fable 5GPQA Fisica in italiano: scienza a livello PhDmcq4m 31s$1.013096.7%
Fable 5GPQA Biologia in italiano: scienza a livello PhDmcq1m 31s$0.22830.0%
Fable 5GPQA Chimica in italiano: scienza a livello PhDmcq6m 36s$1.458983.3%
Fable 5GPQA-Diamond in italiano: scienza a livello PhDmcq4m 33s$0.999263.3%

Evals

Ogni benchmark, con quante domande e su quanti modelli è stato eseguito.