evals.stream Benchmark LLM · Italiano
← tutti gli eval

GPQA-Diamond in italiano: scienza a livello PhD

30 domande · scoring mcq · contaminazione public

Com'è andata

Primo giro, 7 modelli cloud (OpenAI + Anthropic). Nessuno satura: in testa gpt-5.4 (83.3%), poi Opus 4.8 (80%), Sonnet 5 e Sonnet 4.6 appaiati (73.3%), gpt-5.4-mini (70%), Haiku 4.5 (60%), gpt-5.4-nano (53%). Anche il migliore sbaglia ~1 domanda su 6: GPQA regge come «muro».

Assi diversi. Sonnet 5, che su AIME faceva 90%, qui si ferma al 73%: la matematica e la scienza a livello PhD non premiano gli stessi modelli. Confrontare i due eval è più informativo di un singolo numero.

I rifiuti pesano sui Claude. I modelli Anthropic rifiutano alcune domande di biologia molecolare su patogeni (Sonnet 4.6: 3, Opus e Sonnet 5: 2, più qualche risposta non parseabile), per policy di sicurezza; ognuno conta come errore. I modelli OpenAI e Haiku: 0 rifiuti. Quindi parte del divario dei Claude è comportamentale, non di conoscenza: senza i rifiuti, Sonnet 5 e Sonnet 4.6 salirebbero sensibilmente. Effetto reale, da tenere presente leggendo la classifica.

Cosa misura

GPQA-Diamond (Rein et al.) è un benchmark di domande scientifiche a livello PhD — biologia, chimica, fisica — a scelta multipla (4 opzioni), progettato per essere «google-proof»: scritte e validate da esperti di dominio, non si risolvono cercando su internet. Sono tra le domande più difficili in circolazione: gli esperti del campo si fermano intorno al 65%, i non-esperti (con accesso al web) sotto il 35%, e nemmeno i modelli di frontiera le saturano.

Qui usiamo un sottoinsieme di 30 item bilanciati (10 chimica, 10 fisica, 10 biologia), tradotti in italiano. La ground truth è oggettiva (una lettera), nessun giudice LLM. È il complemento perfetto ad AIME: AIME misura il ragionamento matematico, GPQA la conoscenza + ragionamento scientifico.

Perché il testo non è pubblicato

GPQA è un dataset ad accesso ristretto (gated): gli autori chiedono esplicitamente di non diffondere gli esempi in chiaro online, per evitare che finiscano nei dati di addestramento dei modelli (contaminazione). Rispettiamo questa richiesta: su questa pagina trovi solo i punteggi (classifica, e per ogni domanda quanti/quali modelli sbagliano), non il testo delle domande né delle opzioni. Il materiale resta locale e non è versionato.

Note di metodo

Aggiornare con la lettura dei risultati appena arrivano i run.