evals.stream Benchmark LLM · Italiano
← tutti gli eval

GPQA Chimica in italiano: scienza a livello PhD

30 domande · scoring mcq · contaminazione public

Com'è andata

Opus 4.8 in testa (90%), seguito da Fable 5 (83.3%) e Sonnet 5 (80%): in chimica i Claude sono forti e — a differenza della biologiaquasi non rifiutano (un solo rifiuto in tutto, di Fable). Il guardrail sui patogeni non scatta sui composti organici.

Il dato più interessante è il rovescio degli OpenAI: gpt-5.4 si ferma al 73.3% e mini/nano crollano al 43.3% — nettamente peggio che in fisica (dove gpt-5.4 fa 93.3%). La chimica organica di livello PhD — nomi IUPAC, meccanismi, stereochimica — è il tallone d'Achille dei GPT più che dei Claude.

Messo accanto agli altri domini: in fisica vincono i Claude (senza rifiuti), in chimica idem (Opus 90%), in biologia vincerebbero ma si autocensurano. Tre foto diverse dello stesso set di modelli: è il valore dello split per-dominio.

Cosa misura

La fetta Chimica di GPQA-Diamond: 30 domande di chimica a livello PhD, «google-proof», a scelta multipla, tradotte in italiano. Insieme a gpqa-fisica-it, gpqa-chimica-it e gpqa-biologia-it permette di vedere in quale scienza ogni modello è forte o debole, invece di un unico numero mescolato.

Perché il testo non è pubblicato

Come per la mista gpqa-it: GPQA è gated e gli autori chiedono di non diffondere gli esempi in chiaro. Qui trovi solo i punteggi (classifica + chi sbaglia per domanda), non il testo.

Note di metodo

Aggiornare con la lettura dei risultati appena arrivano i run.