evals.stream Benchmark LLM · Italiano
← tutti gli eval

Problemi facili che gli LLM sbagliano

30 domande · scoring mcq · contaminazione public

Com'è andata

30 domande "trappola" in italiano: problemi che sembrano facili ma su cui gli LLM scivolano (tradotte da llm-quiz.com). Si misura l'accuratezza su risposte a scelta multipla, insieme a velocità e costo.

Il migliore è gpt-5.4 (effort high) all'85.6%. Subito sotto si affollano diversi frontier e il miglior open-weight (GLM 5.2). La classifica non premia sempre il modello più nuovo né il più grande.

Cosa emerge

Note di metodo

Aggiornare questo commento quando si aggiungono modelli o ripetizioni.