evals.stream Benchmark LLM · Italiano
← tutti gli eval

Traduzione klingon → italiano (proverbi)

20 domande · scoring mcq · contaminazione public

Com'è andata

20 proverbi klingon di Marc Okrand (The Klingon Way, canon) da tradurre in italiano, in scelta multipla. La verità di riferimento è la traduzione inglese di Okrand → italiano verificato: nessun giudice LLM, voto esatto. Ogni distrattore corrisponde a un errore klingon reale (comparativo invertito, negazione persa, soggetto/oggetto scambiati, aspetto, omonimia).

Spread netto: gpt-5.4, Sonnet 4.6 e GLM 5.2 fanno 100%, poi si scende fino a gpt-5.4-nano al 65% e mini al 75%. I modelli grandi riconoscono i proverbi e reggono la grammatica; i piccoli scivolano.

Cosa separa i modelli

Note di metodo

Aggiornare quando si aggiungono modelli, ripetizioni o item.