Problemi facili che gli LLM sbagliano
30 domande · scoring mcq · contaminazione public
Com'è andata
30 domande "trappola" in italiano: problemi che sembrano facili ma su cui gli LLM scivolano (tradotte da llm-quiz.com). Si misura l'accuratezza su risposte a scelta multipla, insieme a velocità e costo.
Il migliore è gpt-5.4 (effort high) all'85.6%. Subito sotto si affollano diversi frontier e il miglior open-weight (GLM 5.2). La classifica non premia sempre il modello più nuovo né il più grande.
Cosa emerge
- Più recente non vuol dire più accurato. gpt-5.4 batte gpt-5.5 su queste domande; anche tra i Sonnet la generazione nuova non domina. Sui trap conta più il "carattere" del modello che la data di uscita.
- La dimensione non è tutto. Un 12B eseguito in locale se la cava sorprendentemente bene e si avvicina ai modelli medi via API: su questo tipo di domande il ragionamento conta più dei parametri.
- Il "thinking" aiuta ma satura. Aumentare il budget di ragionamento alza l'accuratezza fino a un certo punto, poi il guadagno svanisce — vale per i piccoli come per i frontier.
- Tre domande fregano quasi tutti. Due sono trappole costruite apposta (il modello riconosce l'enigma famoso e ignora la variazione nel testo), una è mal posta: nemmeno i frontier le risolvono. Sono anche un promemoria che la qualità del dataset va curata.
Note di metodo
- Contaminazione: il set è pubblico → va trattato con sospetto (le domande possono essere finite nei training set). È il formato più facile da contaminare: misura in parte il recall, non solo il ragionamento. Per questo affianchiamo eval a più bassa contaminazione (tool use).
- Contano solo i run completi (tutte e 30 le risposte valutabili); l'accuratezza è la media delle ripetizioni.
Aggiornare questo commento quando si aggiungono modelli o ripetizioni.