evals.stream Benchmark LLM · Italiano

Evals

Ogni benchmark, con quante domande e su quanti modelli è stato eseguito. Col (+) aggiungi un eval al tuo use case: i modelli verranno classificati solo su quelli.