GPQA Fisica in italiano: scienza a livello PhD
30 domande · scoring mcq · contaminazione public
Com'è andata
La controprova perfetta della biologia. Qui nessun modello rifiuta nulla — zero rifiuti su tutta la linea — e i Claude dominano: Sonnet 5, Opus 4.8 e Fable 5 appaiati in testa al 96.7%, poi Sonnet 4.6 e gpt-5.4 al 93.3%; sotto scendono ordinatamente i piccoli (mini 86.7%, Haiku 83.3%, nano 73.3%).
È lo stesso identico gruppo di modelli che in biologia affonda per i rifiuti: Fable 5, che lì fa 0/30, qui fa 96.7%; Sonnet 5, lì al 53%, qui al 96.7%. Stessi modelli, esito opposto. È la prova definitiva che il crollo in biologia è policy di allineamento, non competenza: la fisica non tocca alcun guardrail, e all'improvviso i Claude sono i migliori.
La fisica resta comunque discriminante (73→97%, nessuno perfetto), ma senza l'artefatto dei rifiuti la classifica torna a misurare quello che dovrebbe — il ragionamento scientifico.
Cosa misura
La fetta Fisica di GPQA-Diamond: 30 domande di fisica a livello PhD, «google-proof», a scelta multipla, tradotte in italiano. Insieme a gpqa-fisica-it, gpqa-chimica-it e gpqa-biologia-it permette di vedere in quale scienza ogni modello è forte o debole, invece di un unico numero mescolato.
Perché il testo non è pubblicato
Come per la mista gpqa-it: GPQA è gated e gli autori chiedono di non diffondere gli esempi in chiaro. Qui trovi solo i punteggi (classifica + chi sbaglia per domanda), non il testo.
Note di metodo
- Scelta multipla con ragionamento («RISPOSTA: X»); si estrae la lettera. Rifiuto = errore (alcuni modelli rifiutano domande su patogeni). Posizione della risposta mescolata su A/B/C/D.
- Contaminazione
public; la traduzione italiana riduce (non azzera) il recall. - Fonte: GPQA config gpqa_diamond.
Aggiornare con la lettura dei risultati appena arrivano i run.