AIME 2024 in italiano: matematica da competizione
30 domande · scoring numeric · contaminazione public
Cosa misura
AIME 2024 (American Invitational Mathematics Examination, esami I e II) tradotto in italiano: 30 problemi di matematica da competizione, ognuno con risposta un intero da 0 a 999. È matematica olimpica di livello liceale avanzato — algebra, teoria dei numeri, combinatoria, geometria — dove non basta ricordare una formula: serve ragionamento multi-step.
La matematica è invariata; è tradotta solo la parte in prosa (i numeri, le formule e le variabili restano identici all'originale). La ground truth è eseguibile: la risposta o è quel numero o non lo è, confronto esatto, nessun giudice LLM.
Perché è difficile (e discrimina)
L'AIME è pensato per selezionare i migliori studenti verso le olimpiadi: anche per un umano bravo è impegnativo. Per i modelli lo spread atteso è ampio — i modelli di ragionamento se la giocano, i piccoli e i locali crollano. È l'eval che mostra quanto un modello sa davvero ragionare su un problema nuovo, non recuperare un fatto.
Note di metodo
- Prompt che consente il ragionamento: a differenza di math-it (che chiede «solo il numero»), qui il modello può — e deve — ragionare passo per passo, e conclude con «Risposta: N». Si estrae l'ultimo numero del testo. Forzare una risposta secca penalizzerebbe la capacità di calcolo invece di misurarla.
- Scoring esatto (
numeric): la risposta AIME è un intero 0–999; nessuna tolleranza, o è esatta o è errata. - Contaminazione:
public. L'AIME 2024 è pubblico e con ogni probabilità nei dati di addestramento: parte del punteggio dei frontier può essere recall. La versione italiana e la natura di ragionamento riducono, non azzerano, il recall puro — da tenere presente nel leggere i risultati. - Figure: i pochi problemi con diagramma (
[asy]) restano risolvibili dal testo; il diagramma originale è solo illustrativo. - Fonte: problemi ufficiali AIME 2024 (MAA), recuperati dal dataset pubblico
Maxwell-Jia/AIME_2024; risposte intere verificate.
Aggiornare con la lettura dei risultati appena arrivano i run.