evals.stream Benchmark LLM · Italiano
← tutti gli scorer

Scoring: numerico (numeric)

Domande con risposta numerica: il grader estrae l'ultimo numero dal testo e lo confronta con l'atteso, con tolleranza configurabile.

Ground truth calcolabile. Il risultato o è quello o non lo è: si verifica con un calcolo, non con un'opinione. Nessun giudice LLM.

Cosa misura

Domande con risposta numerica (calcolo, ragionamento aritmetico). Conta il numero finale, non il procedimento.

Come viene estratta la risposta

Il grader prende l'ultimo numero presente nel testo — di norma la risposta finale — e lo interpreta con le convenzioni italiane: 1.234,56 → 1234.56, 3,14 → 3.14. La punteggiatura di fine frase viene ignorata.

Confronto e tolleranza

Il numero si confronta con il valore atteso:

Se non si rileva un numero (o manca l'atteso), l'esito è «non valutabile».

Perché così

La verità è verificabile con un calcolo, in modo riproducibile. Come per gli altri scorer, il grezzo resta salvato e si può ri-gradare a posteriori.

Quali eval lo usano