evals.stream Benchmark LLM · Italiano

Come funziona lo scoring

Ogni eval usa uno scorer diverso, ma con lo stesso principio: la verità di riferimento è oggettiva — eseguibile o scritta da umani — mai affidata a un secondo LLM che giudica (la «trappola dello specchio»). Il grezzo di ogni run è conservato, quindi si può ri-gradare senza rieseguire i modelli.

Scelta multipla

scoring mcq

Domande a scelta multipla A/B/C/D: il modello indica un'opzione, il grader estrae la lettera e la confronta con quella corretta.

3 evalapri →

Numerico

scoring numeric

Domande con risposta numerica: il grader estrae l'ultimo numero dal testo e lo confronta con l'atteso, con tolleranza configurabile.

1 evalapri →

Function calling

scoring tool-call

Function calling: date alcune funzioni e una richiesta in italiano, il modello deve produrre le chiamate giuste (nome + argomenti), confrontate con un gold eseguibile.

1 evalapri →

Agentic (multi-turn)

scoring agentic

Tool use in sequenza dentro un ambiente simulato: il modello cerca, legge il risultato e agisce. Voto binario sullo stato finale, ricalcolato dalle query deterministiche.

2 evalapri →