evals.stream Benchmark LLM · Italiano
← tutti gli eval

GPQA Fisica in italiano: scienza a livello PhD

30 domande · scoring mcq · contaminazione public

Com'è andata

La controprova perfetta della biologia. Qui nessun modello rifiuta nulla — zero rifiuti su tutta la linea — e i Claude dominano: Sonnet 5, Opus 4.8 e Fable 5 appaiati in testa al 96.7%, poi Sonnet 4.6 e gpt-5.4 al 93.3%; sotto scendono ordinatamente i piccoli (mini 86.7%, Haiku 83.3%, nano 73.3%).

È lo stesso identico gruppo di modelli che in biologia affonda per i rifiuti: Fable 5, che lì fa 0/30, qui fa 96.7%; Sonnet 5, lì al 53%, qui al 96.7%. Stessi modelli, esito opposto. È la prova definitiva che il crollo in biologia è policy di allineamento, non competenza: la fisica non tocca alcun guardrail, e all'improvviso i Claude sono i migliori.

La fisica resta comunque discriminante (73→97%, nessuno perfetto), ma senza l'artefatto dei rifiuti la classifica torna a misurare quello che dovrebbe — il ragionamento scientifico.

Cosa misura

La fetta Fisica di GPQA-Diamond: 30 domande di fisica a livello PhD, «google-proof», a scelta multipla, tradotte in italiano. Insieme a gpqa-fisica-it, gpqa-chimica-it e gpqa-biologia-it permette di vedere in quale scienza ogni modello è forte o debole, invece di un unico numero mescolato.

Perché il testo non è pubblicato

Come per la mista gpqa-it: GPQA è gated e gli autori chiedono di non diffondere gli esempi in chiaro. Qui trovi solo i punteggi (classifica + chi sbaglia per domanda), non il testo.

Note di metodo

Aggiornare con la lettura dei risultati appena arrivano i run.