Scoring: scelta multipla (mcq)
Domande a scelta multipla A/B/C/D: il modello indica un'opzione, il grader estrae la lettera e la confronta con quella corretta.
Cosa misura
Domande a scelta multipla (A/B/C/D). C'è una sola risposta giusta. Si valuta se il modello sceglie l'opzione corretta, non come la motiva.
Come viene estratta la risposta
Il grader legge il testo grezzo del modello e cerca la lettera con due regole, in ordine:
- l'ultima riga che contiene la parola
RISPOSTA→ prende la prima lettera valida (A–D) dopo di essa; - se non c'è, ripiega sulla prima lettera A–D che compare nel testo.
La lettera attesa è posizionale: quella dell'opzione marcata come corretta nel dataset (1ª opzione = A, 2ª = B, ecc.). Se non si rileva nessuna lettera l'esito è «non valutabile» (né giusto né sbagliato), non un errore.
Perché così
L'estrazione è deterministica e verificata su migliaia di run storici: stesso testo, stesso voto, sempre. Il grezzo di ogni run è conservato, quindi si può ri-gradare senza rieseguire i modelli.
Quali eval lo usano
- Traduzione klingon → italiano (proverbi) (klingon-it)
- Traduzione sindarin → italiano (frasi attestate) (sindarin-it)
- Problemi facili che gli LLM sbagliano (trap-it)