Come funziona lo scoring
Ogni eval usa uno scorer diverso, ma con lo stesso principio: la verità di riferimento è oggettiva — eseguibile o scritta da umani — mai affidata a un secondo LLM che giudica (la «trappola dello specchio»). Il grezzo di ogni run è conservato, quindi si può ri-gradare senza rieseguire i modelli.
Scelta multipla
Domande a scelta multipla A/B/C/D: il modello indica un'opzione, il grader estrae la lettera e la confronta con quella corretta.
Numerico
Domande con risposta numerica: il grader estrae l'ultimo numero dal testo e lo confronta con l'atteso, con tolleranza configurabile.
Function calling
Function calling: date alcune funzioni e una richiesta in italiano, il modello deve produrre le chiamate giuste (nome + argomenti), confrontate con un gold eseguibile.
Agentic (multi-turn)
Tool use in sequenza dentro un ambiente simulato: il modello cerca, legge il risultato e agisce. Voto binario sullo stato finale, ricalcolato dalle query deterministiche.