evals.stream Benchmark LLM · Italiano
← tutti gli eval

AIME 2024 in italiano: matematica da competizione

30 domande · scoring numeric · contaminazione public

Cosa misura

AIME 2024 (American Invitational Mathematics Examination, esami I e II) tradotto in italiano: 30 problemi di matematica da competizione, ognuno con risposta un intero da 0 a 999. È matematica olimpica di livello liceale avanzato — algebra, teoria dei numeri, combinatoria, geometria — dove non basta ricordare una formula: serve ragionamento multi-step.

La matematica è invariata; è tradotta solo la parte in prosa (i numeri, le formule e le variabili restano identici all'originale). La ground truth è eseguibile: la risposta o è quel numero o non lo è, confronto esatto, nessun giudice LLM.

Perché è difficile (e discrimina)

L'AIME è pensato per selezionare i migliori studenti verso le olimpiadi: anche per un umano bravo è impegnativo. Per i modelli lo spread atteso è ampio — i modelli di ragionamento se la giocano, i piccoli e i locali crollano. È l'eval che mostra quanto un modello sa davvero ragionare su un problema nuovo, non recuperare un fatto.

Note di metodo

Aggiornare con la lettura dei risultati appena arrivano i run.