Ragionamento numerico e trappole aritmetiche
15 domande · scoring numeric · contaminazione public
Com'è andata
15 problemi numerici in italiano, con alcune trappole di ragionamento classiche (la mazza e la pallina, le ninfee che raddoppiano, "tutte tranne 8"). Si estrae il numero dalla risposta e si confronta con il valore atteso, entro tolleranza.
Risultato: quasi tutti i modelli fanno 100%, solo gpt-5.4-nano scivola (sbaglia la mazza-pallina rispondendo 0,10 invece di 0,05, la trappola cognitiva più famosa).
La lettura, onesta
Questo eval è più un promemoria sulla contaminazione che un vero discriminatore. Le trappole scelte (bat-and-ball, ninfee, il mattone) sono arcinote: sono finite mille volte nei training set, quindi i modelli di frontiera le hanno di fatto memorizzate e le risolvono senza pensarci. Solo il modello più piccolo, con meno "memoria", casca ancora nell'intuizione sbagliata.
È l'illustrazione pratica del perché un eval marcato contamination: public va preso con le pinze: misura in parte il recall. Un dataset numerico davvero discriminante userebbe problemi originali, non enigmi celebri.
Aggiornare questo commento quando si aggiungono modelli o si sostituiscono gli item con problemi originali.