Scoring: scelta multipla (mcq)

Domande a scelta multipla A/B/C/D: il modello indica un'opzione, il grader estrae la lettera e la confronta con quella corretta.

Ground truth oggettiva. Una sola opzione è corretta, decisa da chi ha scritto il dataset — non da un secondo LLM che «giudica» (la trappola dello specchio). Nessuna soggettività nel voto.

Cosa misura

Domande a scelta multipla (A/B/C/D). C'è una sola risposta giusta. Si valuta se il modello sceglie l'opzione corretta, non come la motiva.

Come viene estratta la risposta

Il grader legge il testo grezzo del modello e cerca la lettera con due regole, in ordine:

l'ultima riga che contiene la parola RISPOSTA → prende la prima lettera valida (A–D) dopo di essa;
se non c'è, ripiega sulla prima lettera A–D che compare nel testo.

La lettera attesa è posizionale: quella dell'opzione marcata come corretta nel dataset (1ª opzione = A, 2ª = B, ecc.). Se non si rileva nessuna lettera l'esito è «non valutabile» (né giusto né sbagliato), non un errore.

Perché così

L'estrazione è deterministica e verificata su migliaia di run storici: stesso testo, stesso voto, sempre. Il grezzo di ogni run è conservato, quindi si può ri-gradare senza rieseguire i modelli.

Quali eval lo usano

Traduzione klingon → italiano (proverbi) (klingon-it)
Traduzione sindarin → italiano (frasi attestate) (sindarin-it)
Problemi facili che gli LLM sbagliano (trap-it)