Scoring: numerico (numeric)
Domande con risposta numerica: il grader estrae l'ultimo numero dal testo e lo confronta con l'atteso, con tolleranza configurabile.
Ground truth calcolabile. Il risultato o è quello o non lo è: si verifica con un calcolo, non con un'opinione. Nessun giudice LLM.
Cosa misura
Domande con risposta numerica (calcolo, ragionamento aritmetico). Conta il numero finale, non il procedimento.
Come viene estratta la risposta
Il grader prende l'ultimo numero presente nel testo — di norma la risposta finale — e lo interpreta con le convenzioni italiane: 1.234,56 → 1234.56, 3,14 → 3.14. La punteggiatura di fine frase viene ignorata.
Confronto e tolleranza
Il numero si confronta con il valore atteso:
- tolleranza assoluta
tolerance: se assente onullvale 0, cioè match esatto; - tolleranza relativa opzionale
tolerance_rel: comoda per numeri grandi o irrazionali.
Se non si rileva un numero (o manca l'atteso), l'esito è «non valutabile».
Perché così
La verità è verificabile con un calcolo, in modo riproducibile. Come per gli altri scorer, il grezzo resta salvato e si può ri-gradare a posteriori.
Quali eval lo usano
- AIME 2024 in italiano: matematica da competizione (aime-it) · senza run
- Ragionamento numerico e trappole aritmetiche (math-it)