evals/stream Benchmark LLMs in italiano

Hardware

Gli stessi modelli, misurati su hardware diverso. L'accuratezza non cambia (e infatti la aggregiamo insieme): qui si confronta quanto corrono — token al secondo per profilo.