Seguire le istruzioni alla lettera (IFEval in italiano)

26 domande · scoring ifeval · contaminazione none

Com'è andata

Instruction-following quasi saturo in cima, e non è una sorpresa: seguire un vincolo formale è più facile che sapere (come in GPQA) o ragionare (come in AIME). In testa gpt-5.4 e Fable 5 fanno 26/26 (100%), con Opus 4.8 e Sonnet 4.6 a 25/26 (96.2%) e un gruppone a 92.3%. Il fanalino è gpt-5.4-nano (76.9%): il modello più piccolo è l'unico che scivola su più vincoli.

Ma «quasi saturo» non vuol dire banale. Il vero muro è una sola domanda: descrivere un bosco d'autunno in 20+ parole senza mai usare la lettera «e» (un lipogramma). Solo 3 modelli su 8 ci riescono — la «e» in italiano è ovunque, e la maggior parte dei modelli la lascia scappare pur avendo capito la consegna. È il tipo di vincolo che separa «ho letto l'istruzione» da «la controllo davvero mentre scrivo».

Gli altri inciampi sono tutti sui conteggi esatti: una frase di esattamente sette parole, la parola «caffè» esattamente quattro volte, quattro punti elenco con «rispetto» esattamente due volte. Anche i modelli di punta qui sbagliano occasionalmente: contare mentre si genera non è gratis. Le istruzioni «morbide» (maiuscole, JSON, poscritto, niente virgole, inizio/fine imposti) invece le azzeccano quasi tutti.

La lettura. In italiano i modelli frontier seguono bene le istruzioni verificabili — la dimensione «obbedienza al formato» è matura. La discriminazione vera resta ai piccoli e sui vincoli che richiedono un conteggio o un filtro carattere per carattere. Per spingere più in basso anche i grandi serve impilare più vincoli per prompt: è esattamente quello che fa la versione dura, ifeval-hard-it.

Cosa misura

La capacità di seguire istruzioni alla lettera, non la conoscenza. Ogni domanda porta vincoli controllabili a macchina (lunghezza, parole obbligatorie/vietate, formato, maiuscole, JSON) e si supera solo rispettandoli tutti (metrica strict). Consegne scritte nativamente in italiano: nessuna traduzione, nessuna contaminazione da dataset pubblici. Ispirata a IFEval (Zhou et al. 2023).

Note di metodo

Scoring ifeval: nessun giudice LLM — ogni vincolo è una funzione che conta o cerca nel testo e ritorna vero/falso. Il grezzo resta salvato: si può ri-gradare.
Metrica strict: basta violare un vincolo per sbagliare l'intera domanda.
26 domande, 1–3 vincoli ciascuna, quattro tipi: lunghezza, lessico, formato, struttura.