evals.stream Benchmark LLM · Italiano
← tutti gli eval

Agente di viaggio: tool use in sequenza (italiano)

6 domande · scoring agentic · contaminazione low

Com'è andata

Primo giro, 8 modelli cloud, 1 ripetizione. Sei modelli su otto fanno 100% (qwen3-235b, DeepSeek V4 Flash, gpt-5.4, Haiku 4.5, GLM 5.2, Sonnet 4.6). Gli unici a cadere sono i due GPT piccoli (mini e nano, 83%), e cadono sullo stesso task: il multi (t5).

Lettura netta: il tool use in sequenza semplice è risolto per i frontier. Cercare, leggere il risultato e prenotare l'opzione giusta — anche filtrando (4 stelle, volo diretto), con un criterio diverso dal prezzo (arrivo più presto) o sapendosi fermare (il condizionale su Tokyo) — non li mette in difficoltà: nessuno sbaglia t1–t4 e t6. Il divario si apre solo quando il task chiede due sotto-sequenze in un turno lungo (prenota volo e hotel): lì mini e nano cercano entrambi ma non completano tutte e due le prenotazioni, chiudendo il dialogo a metà.

Cosa misura

Un eval agentic: il modello non produce le chiamate in un colpo solo (come in tool-use-it), ma agisce in sequenza dentro un ambiente. Cerca i voli → legge il risultato → prenota l'opzione giusta. La mossa dopo dipende dai dati della mossa prima: l'id del volo più economico non si può indovinare, va recuperato. Dominio viaggi (voli + hotel), 6 task in italiano, fino a 8 turni ciascuno.

Il voto è binario e sullo stato finale (le prenotazioni), non sulla traiettoria: conta se lo stato finale è quello giusto, ricalcolato dalle query deterministiche dell'ambiente. Ground truth eseguibile, nessun giudice LLM — vedi /scoring/agentic/.

I 6 task coprono schemi diversi:

Note di metodo

Aggiornare quando si aggiungono task più difficili, ripetizioni o il modello locale.