Scoring: seguire le istruzioni (ifeval)

Consegne con vincoli controllabili a macchina (lunghezza, parole vietate/obbligatorie, formato, maiuscole, JSON). La risposta è corretta solo se rispetta TUTTI i vincoli.

Ground truth verificabile, non giudicata. Non si valuta se la risposta è «bella» o «sensata» — un giudizio soggettivo — ma se soddisfa vincoli formali che si contano e si cercano nel testo. Nessun giudice LLM.

Cosa misura

La capacità di seguire istruzioni alla lettera: non la conoscenza, ma la fedeltà al vincolo. Un modello può sapere tutto e comunque fallire se gli chiedi «esattamente tre frasi» e ne scrive quattro. È la dimensione dietro ogni uso pratico: rispettare un formato, una lunghezza, uno schema.

Come viene assegnato il voto

Ogni domanda porta una lista di vincoli verificabili. Il grader li controlla uno per uno, in modo deterministico:

lunghezza: numero esatto/minimo/massimo di parole, frasi, righe, paragrafi, punti elenco;
lessico: parole obbligatorie, parole vietate, una lettera bandita (lipogramma), frequenza esatta di una parola;
formato: tutto maiuscolo/minuscolo, niente virgole, niente cifre, JSON valido, titolo tra <<...>>, poscritto, segnaposto.

La metrica è strict: la risposta conta come corretta solo se supera tutti i vincoli della domanda. Basta violarne uno per sbagliare — proprio come nell'uso reale, dove «quasi nel formato» non basta.

Perché così

Ogni vincolo è una funzione che ritorna vero/falso su un conteggio o una ricerca nel testo: nessuna opinione, risultato riproducibile. Il grezzo resta salvato e si può ri-gradare. Le consegne sono scritte nativamente in italiano (nessuna traduzione, nessuna contaminazione da dataset pubblici).

Quali eval lo usano

IFEval HARD: istruzioni multiple e vincolanti (in italiano) (ifeval-hard-it)
Seguire le istruzioni alla lettera (IFEval in italiano) (ifeval-it)