IFEval HARD: istruzioni multiple e vincolanti (in italiano)

22 domande · scoring ifeval · contaminazione public

Com'è andata

Impilando 2-3 istruzioni dell'IFEval reale per prompt, il soffitto sparisce: se in ifeval-it due modelli facevano 100%, qui nessuno è perfetto. In testa un terzetto a 21/22 (95.5%) — gpt-5.4, Opus 4.8, Fable 5 — poi un gruppo a 90.9% e, in coda, gpt-5.4-nano e Sonnet 5 appaiati all'81.8%.

La sorpresa è proprio lì in fondo: Sonnet 5, un ottimo ragionatore, finisce alla pari con il modello più piccolo di OpenAI. Non per un bug sistematico ma per quattro scivoloni diversi — non ripete la richiesta alla lettera, sfora il budget di parole-maiuscole, sbaglia i conteggi esatti di parole chiave. È la prova che seguire istruzioni non è la stessa cosa che essere intelligenti: due capacità distinte, e i modelli migliori nell'una non lo sono automaticamente nell'altra.

Cosa fa cadere anche i grandi. Due domande spaccano il campo a metà (4/8):

un curriculum che usi parole tutte-maiuscole meno di 10 volte e sia racchiuso tra virgolette: gpt-5.4 ne mette 13 e sfora — bisogna contare mentre si genera;
un template con la lettera «o» meno di 6 volte, meno di 6 frasi e 2 sezioni evidenziate: filtrare una lettera comune dell'italiano mentre si rispettano lunghezza e formato è durissimo.

Gli altri inciampi sono istruttivi: il divisore di paragrafi * esatto (i piccoli lo ignorano), i conteggi «guerra ×8, pace ×10» (Opus e Sonnet 5 mancano il bersaglio), e un rifiuto** di Fable 5 sulla mail di dimissioni da ripetere — la stessa impronta di allineamento vista in GPQA biologia, che scatta anche su un compito del tutto innocuo.

La lettura. L'instruction-following in italiano è una capacità matura ma non risolta: impilare vincoli verificabili non azzera i frontier (restano sopra il 90%), ma toglie la perfezione e riordina la classifica in modo diverso da conoscenza e ragionamento. Chi vince qui — gpt-5.4 e Opus — non è chi vince su AIME o GPQA.

Cosa misura

La capacità di rispettare più istruzioni verificabili contemporaneamente. Adattamento fedele di IFEval (Zhou et al. 2023): prompt reali del dataset google/IFEval tradotti in italiano, con le stesse combinazioni di istruzioni e gli stessi parametri. I checker riproducono la semantica ufficiale di instructions.py (relazioni «almeno»/«meno di», paragrafi separati da *, sezioni «SEZIONE X», due risposte separate da ****, ecc.).

Note di metodo

Scoring ifeval: ogni istruzione è una funzione che conta/cerca nel testo. Nessun giudice LLM.
Metrica strict: basta violare una delle 2-3 istruzioni per sbagliare l'intero prompt — è l'effetto moltiplicativo che abbassa i punteggi.
Rifiuto = errore (unparsed_as_wrong): un modello non «sfugge» rifiutando.
22 prompt, ciascuno con 2-3 istruzioni reali dell'IFEval.