Scoring: seguire le istruzioni (ifeval)
Consegne con vincoli controllabili a macchina (lunghezza, parole vietate/obbligatorie, formato, maiuscole, JSON). La risposta è corretta solo se rispetta TUTTI i vincoli.
Cosa misura
La capacità di seguire istruzioni alla lettera: non la conoscenza, ma la fedeltà al vincolo. Un modello può sapere tutto e comunque fallire se gli chiedi «esattamente tre frasi» e ne scrive quattro. È la dimensione dietro ogni uso pratico: rispettare un formato, una lunghezza, uno schema.
Come viene assegnato il voto
Ogni domanda porta una lista di vincoli verificabili. Il grader li controlla uno per uno, in modo deterministico:
- lunghezza: numero esatto/minimo/massimo di parole, frasi, righe, paragrafi, punti elenco;
- lessico: parole obbligatorie, parole vietate, una lettera bandita (lipogramma), frequenza esatta di una parola;
- formato: tutto maiuscolo/minuscolo, niente virgole, niente cifre, JSON valido, titolo tra
<<...>>, poscritto, segnaposto.
La metrica è strict: la risposta conta come corretta solo se supera tutti i vincoli della domanda. Basta violarne uno per sbagliare — proprio come nell'uso reale, dove «quasi nel formato» non basta.
Perché così
Ogni vincolo è una funzione che ritorna vero/falso su un conteggio o una ricerca nel testo: nessuna opinione, risultato riproducibile. Il grezzo resta salvato e si può ri-gradare. Le consegne sono scritte nativamente in italiano (nessuna traduzione, nessuna contaminazione da dataset pubblici).
Quali eval lo usano
- IFEval HARD: istruzioni multiple e vincolanti (in italiano) (ifeval-hard-it)
- Seguire le istruzioni alla lettera (IFEval in italiano) (ifeval-it)