evals.stream Benchmark LLM · Italiano

Ultime 5 run

ModelloEvalScoringTempoCostoPunteggio
Sonnet 5IFEval HARD: istruzioni multiple e vincolanti (in italiano)ifeval4m 54s$0.258881.8%
Sonnet 5Seguire le istruzioni alla lettera (IFEval in italiano)ifeval2m 20s$0.112592.3%
Sonnet 4.6IFEval HARD: istruzioni multiple e vincolanti (in italiano)ifeval3m 09s$0.130990.9%
Sonnet 4.6Seguire le istruzioni alla lettera (IFEval in italiano)ifeval1m 31s$0.048696.2%
Opus 4.8IFEval HARD: istruzioni multiple e vincolanti (in italiano)ifeval3m 29s$0.297395.5%

Evals

Ogni benchmark, con quante domande e su quanti modelli è stato eseguito.