evals.stream Benchmark LLM · Italiano
← tutti gli scorer

Scoring: scelta multipla (mcq)

Domande a scelta multipla A/B/C/D: il modello indica un'opzione, il grader estrae la lettera e la confronta con quella corretta.

Ground truth oggettiva. Una sola opzione è corretta, decisa da chi ha scritto il dataset — non da un secondo LLM che «giudica» (la trappola dello specchio). Nessuna soggettività nel voto.

Cosa misura

Domande a scelta multipla (A/B/C/D). C'è una sola risposta giusta. Si valuta se il modello sceglie l'opzione corretta, non come la motiva.

Come viene estratta la risposta

Il grader legge il testo grezzo del modello e cerca la lettera con due regole, in ordine:

La lettera attesa è posizionale: quella dell'opzione marcata come corretta nel dataset (1ª opzione = A, 2ª = B, ecc.). Se non si rileva nessuna lettera l'esito è «non valutabile» (né giusto né sbagliato), non un errore.

Perché così

L'estrazione è deterministica e verificata su migliaia di run storici: stesso testo, stesso voto, sempre. Il grezzo di ogni run è conservato, quindi si può ri-gradare senza rieseguire i modelli.

Quali eval lo usano