evals.stream Benchmark LLM · Italiano
← tutti gli scorer

Scoring: seguire le istruzioni (ifeval)

Consegne con vincoli controllabili a macchina (lunghezza, parole vietate/obbligatorie, formato, maiuscole, JSON). La risposta è corretta solo se rispetta TUTTI i vincoli.

Ground truth verificabile, non giudicata. Non si valuta se la risposta è «bella» o «sensata» — un giudizio soggettivo — ma se soddisfa vincoli formali che si contano e si cercano nel testo. Nessun giudice LLM.

Cosa misura

La capacità di seguire istruzioni alla lettera: non la conoscenza, ma la fedeltà al vincolo. Un modello può sapere tutto e comunque fallire se gli chiedi «esattamente tre frasi» e ne scrive quattro. È la dimensione dietro ogni uso pratico: rispettare un formato, una lunghezza, uno schema.

Come viene assegnato il voto

Ogni domanda porta una lista di vincoli verificabili. Il grader li controlla uno per uno, in modo deterministico:

La metrica è strict: la risposta conta come corretta solo se supera tutti i vincoli della domanda. Basta violarne uno per sbagliare — proprio come nell'uso reale, dove «quasi nel formato» non basta.

Perché così

Ogni vincolo è una funzione che ritorna vero/falso su un conteggio o una ricerca nel testo: nessuna opinione, risultato riproducibile. Il grezzo resta salvato e si può ri-gradare. Le consegne sono scritte nativamente in italiano (nessuna traduzione, nessuna contaminazione da dataset pubblici).

Quali eval lo usano