evals.stream Benchmark LLM · Italiano
← tutti gli eval

GPQA Biologia in italiano: scienza a livello PhD

30 domande · scoring mcq · contaminazione public

Com'è andata

Il risultato più netto di tutto il benchmark, e non riguarda la competenza. In testa c'è gpt-5.4 (70%, zero rifiuti) — non il modello più intelligente, ma quello che risponde. Perché sotto succede questo:

Fable 5, il modello di punta di Anthropic — 100% su AIME, 96.7% in fisica — qui prende 0/30: ha rifiutato TUTTE E 30 le domande. Nessuna sbagliata: trenta rifiuti. È l'esempio estremo di un modello brillante ovunque che si autocensura su una scienza intera.

E non è solo Fable. Tutti i Claude di punta rifiutano in massa: Opus 4.8 e Sonnet 5 sei domande a testa, Sonnet 4.6 quattro — e crollano al 50–63%. Sonnet 5, che su AIME faceva 90%, qui è al 53%. Curiosamente il Claude piccolo, Haiku, rifiuta zero e fa 60%: sono i flagship ad avere i freni più stretti. I modelli OpenAI: zero rifiuti su tutta la linea.

I rifiuti costano punti veri. Delle 6 domande rifiutate da Opus/Sonnet 5, cinque erano risolvibili — spesso da tutti gli altri modelli. Non sono domande difficili declinate per prudenza: sono punti regalati. Senza i rifiuti, Sonnet 5 passerebbe da 53% a ~70%, alla pari con gpt-5.4.

I trigger sono di due tipi: dual-use reale (virus, batteri multiresistenti, rilevamento di agenti patogeni — rifiuto difendibile) e falsi positivi (biologia accademica innocua: genetica delle piante, struttura di un enzima) dove il guardrail scatta sulle parole di superficie, non sul rischio effettivo. Le domande più «calde» sono rifiutate da tutti e tre i Claude in blocco.

La lettura. Su questo dominio la classifica non misura la competenza, misura la policy di allineamento. Gli stessi Claude che qui affondano dominano la chimica (Opus 90%) e la fisica (Fable 96.7%). È esattamente il motivo per cui abbiamo separato i domini: un unico «GPQA complessivo» avrebbe nascosto un modello che in biologia fa 0% — non perché non sa, ma perché non vuole rispondere. Ogni domanda qui sotto mostra da quali modelli è stata rifiutata.

Cosa misura

La fetta Biologia di GPQA-Diamond: 30 domande di biologia a livello PhD, «google-proof», a scelta multipla, tradotte in italiano. Insieme a gpqa-fisica-it, gpqa-chimica-it e gpqa-biologia-it permette di vedere in quale scienza ogni modello è forte o debole, invece di un unico numero mescolato.

Perché il testo non è pubblicato

Come per la mista gpqa-it: GPQA è gated e gli autori chiedono di non diffondere gli esempi in chiaro. Qui trovi solo i punteggi (classifica + chi sbaglia per domanda), non il testo.

Note di metodo

Aggiornare con la lettura dei risultati appena arrivano i run.