AIME 2024 in italiano: matematica da competizione

30 domande · scoring numeric · contaminazione public

Cosa misura

AIME 2024 (American Invitational Mathematics Examination, esami I e II) tradotto in italiano: 30 problemi di matematica da competizione, ognuno con risposta un intero da 0 a 999. È matematica olimpica di livello liceale avanzato — algebra, teoria dei numeri, combinatoria, geometria — dove non basta ricordare una formula: serve ragionamento multi-step.

La matematica è invariata; è tradotta solo la parte in prosa (i numeri, le formule e le variabili restano identici all'originale). La ground truth è eseguibile: la risposta o è quel numero o non lo è, confronto esatto, nessun giudice LLM.

Perché è difficile (e discrimina)

L'AIME è pensato per selezionare i migliori studenti verso le olimpiadi: anche per un umano bravo è impegnativo. Per i modelli lo spread atteso è ampio — i modelli di ragionamento se la giocano, i piccoli e i locali crollano. È l'eval che mostra quanto un modello sa davvero ragionare su un problema nuovo, non recuperare un fatto.

Note di metodo

Prompt che consente il ragionamento: a differenza di math-it (che chiede «solo il numero»), qui il modello può — e deve — ragionare passo per passo, e conclude con «Risposta: N». Si estrae l'ultimo numero del testo. Forzare una risposta secca penalizzerebbe la capacità di calcolo invece di misurarla.
Scoring esatto (numeric): la risposta AIME è un intero 0–999; nessuna tolleranza, o è esatta o è errata.
Contaminazione: public. L'AIME 2024 è pubblico e con ogni probabilità nei dati di addestramento: parte del punteggio dei frontier può essere recall. La versione italiana e la natura di ragionamento riducono, non azzerano, il recall puro — da tenere presente nel leggere i risultati.
Figure: i pochi problemi con diagramma ([asy]) restano risolvibili dal testo; il diagramma originale è solo illustrativo.
Fonte: problemi ufficiali AIME 2024 (MAA), recuperati dal dataset pubblico Maxwell-Jia/AIME_2024; risposte intere verificate.

Aggiornare con la lettura dei risultati appena arrivano i run.