GPQA Chimica in italiano: scienza a livello PhD
30 domande · scoring mcq · contaminazione public
Com'è andata
Opus 4.8 in testa (90%), seguito da Fable 5 (83.3%) e Sonnet 5 (80%): in chimica i Claude sono forti e — a differenza della biologia — quasi non rifiutano (un solo rifiuto in tutto, di Fable). Il guardrail sui patogeni non scatta sui composti organici.
Il dato più interessante è il rovescio degli OpenAI: gpt-5.4 si ferma al 73.3% e mini/nano crollano al 43.3% — nettamente peggio che in fisica (dove gpt-5.4 fa 93.3%). La chimica organica di livello PhD — nomi IUPAC, meccanismi, stereochimica — è il tallone d'Achille dei GPT più che dei Claude.
Messo accanto agli altri domini: in fisica vincono i Claude (senza rifiuti), in chimica idem (Opus 90%), in biologia vincerebbero ma si autocensurano. Tre foto diverse dello stesso set di modelli: è il valore dello split per-dominio.
Cosa misura
La fetta Chimica di GPQA-Diamond: 30 domande di chimica a livello PhD, «google-proof», a scelta multipla, tradotte in italiano. Insieme a gpqa-fisica-it, gpqa-chimica-it e gpqa-biologia-it permette di vedere in quale scienza ogni modello è forte o debole, invece di un unico numero mescolato.
Perché il testo non è pubblicato
Come per la mista gpqa-it: GPQA è gated e gli autori chiedono di non diffondere gli esempi in chiaro. Qui trovi solo i punteggi (classifica + chi sbaglia per domanda), non il testo.
Note di metodo
- Scelta multipla con ragionamento («RISPOSTA: X»); si estrae la lettera. Rifiuto = errore (alcuni modelli rifiutano domande su patogeni). Posizione della risposta mescolata su A/B/C/D.
- Contaminazione
public; la traduzione italiana riduce (non azzera) il recall. - Fonte: GPQA config gpqa_diamond.
Aggiornare con la lettura dei risultati appena arrivano i run.