GPQA-Diamond in italiano: scienza a livello PhD

30 domande · scoring mcq · contaminazione public

Com'è andata

Primo giro, 7 modelli cloud (OpenAI + Anthropic). Nessuno satura: in testa gpt-5.4 (83.3%), poi Opus 4.8 (80%), Sonnet 5 e Sonnet 4.6 appaiati (73.3%), gpt-5.4-mini (70%), Haiku 4.5 (60%), gpt-5.4-nano (53%). Anche il migliore sbaglia ~1 domanda su 6: GPQA regge come «muro».

Assi diversi. Sonnet 5, che su AIME faceva 90%, qui si ferma al 73%: la matematica e la scienza a livello PhD non premiano gli stessi modelli. Confrontare i due eval è più informativo di un singolo numero.

I rifiuti pesano sui Claude. I modelli Anthropic rifiutano alcune domande di biologia molecolare su patogeni (Sonnet 4.6: 3, Opus e Sonnet 5: 2, più qualche risposta non parseabile), per policy di sicurezza; ognuno conta come errore. I modelli OpenAI e Haiku: 0 rifiuti. Quindi parte del divario dei Claude è comportamentale, non di conoscenza: senza i rifiuti, Sonnet 5 e Sonnet 4.6 salirebbero sensibilmente. Effetto reale, da tenere presente leggendo la classifica.

Cosa misura

GPQA-Diamond (Rein et al.) è un benchmark di domande scientifiche a livello PhD — biologia, chimica, fisica — a scelta multipla (4 opzioni), progettato per essere «google-proof»: scritte e validate da esperti di dominio, non si risolvono cercando su internet. Sono tra le domande più difficili in circolazione: gli esperti del campo si fermano intorno al 65%, i non-esperti (con accesso al web) sotto il 35%, e nemmeno i modelli di frontiera le saturano.

Qui usiamo un sottoinsieme di 30 item bilanciati (10 chimica, 10 fisica, 10 biologia), tradotti in italiano. La ground truth è oggettiva (una lettera), nessun giudice LLM. È il complemento perfetto ad AIME: AIME misura il ragionamento matematico, GPQA la conoscenza + ragionamento scientifico.

Perché il testo non è pubblicato

GPQA è un dataset ad accesso ristretto (gated): gli autori chiedono esplicitamente di non diffondere gli esempi in chiaro online, per evitare che finiscano nei dati di addestramento dei modelli (contaminazione). Rispettiamo questa richiesta: su questa pagina trovi solo i punteggi (classifica, e per ogni domanda quanti/quali modelli sbagliano), non il testo delle domande né delle opzioni. Il materiale resta locale e non è versionato.

Note di metodo

Scelta multipla con ragionamento: il prompt consente — e chiede — di ragionare, poi di concludere con «RISPOSTA: X». Si estrae la lettera. Forzare la sola lettera penalizzerebbe la capacità di ragionare invece di misurarla.
Posizione della risposta mescolata: l'opzione corretta è distribuita su A/B/C/D in modo deterministico, così un modello non può sfruttare una posizione preferita.
Rifiuti = errori. Alcuni modelli (in particolare i Claude) rifiutano certe domande di biologia molecolare su patogeni/virus, per policy di sicurezza. Un rifiuto viene contato come risposta errata: il modello non ha fornito la risposta corretta, e così un modello non "sfugge" evitando di rispondere. È lo standard nei benchmark.
Contaminazione: public. Anche se gated, GPQA circola: parte del punteggio dei frontier può essere recall. La traduzione italiana riduce (non azzera) il recall puro.
Traduzione: prosa in italiano; nomi IUPAC, formule, sequenze di DNA, notazione LaTeX e valori numerici lasciati verbatim (sono notazione internazionale) per non alterare la scienza.
Fonte: GPQA-Diamond, Idavidrein/gpqa (config gpqa_diamond, 198 item), sottoinsieme di 30.

Aggiornare con la lettura dei risultati appena arrivano i run.