evals.stream Benchmark LLM · Italiano
← tutti gli eval

Agente di viaggio XHARD: vincoli combinati e trappole (italiano)

8 domande · scoring agentic · contaminazione low

Com'è andata

Primo giro, 8 modelli cloud, 2 ripetizioni. Restano 4 modelli a 100% (DeepSeek V4 Flash, gpt-5.4, GLM 5.2, Sonnet 4.6), ma la coda scende più in basso e si fa instabile: qwen3-235b e Haiku 4.5 all'87.5%, gpt-5.4-mini all'81% (range 75–87.5) e gpt-5.4-nano al 56% (50–62.5). Come nell'hard, le due ripetizioni fanno emergere l'oscillazione dei modelli piccoli.

Sorprese dai singoli task:

Nota interessante: qui gpt-5.4 «grande» fa 100% mentre nell'hard era al 91.7% — la difficoltà non è monotòna tra eval, dipende da quali trappole tocchi. Costi ancora contenuti: da ~$0.005 (qwen, DeepSeek) a ~$0.26 (Sonnet) per run.

Cosa misura

Il gradino più duro della famiglia agentic (dopo base e hard). Stesso motore — loop multi-turn, voto binario sullo stato finale, ground truth eseguibile ricalcolata dalle query, nessun giudice LLM — ma i task combinano più vincoli insieme e l'ambiente ha 8 strumenti, di cui tre ingannevoli.

Ambiente viaggi-xhard: ai voli/hotel si aggiungono converti_valuta, due distrattori (meteo, cerca_treno) e soprattutto stima_prezzo_volo, una trappola: dà prezzi approssimativi che a volte invertono l'ordine rispetto a quelli reali. I voli hanno anche posti_disponibili (0 = esaurito): prenotare un volo pieno fallisce, e va gestito.

Gli 8 task

Note di metodo

Aggiornare quando si aggiungono modelli, ripetizioni o il modello locale sul Jetson.