Scoring: agentic (multi-turn)
Tool use in sequenza dentro un ambiente simulato: il modello cerca, legge il risultato e agisce. Voto binario sullo stato finale, ricalcolato dalle query deterministiche.
Cosa misura
Un compito agentic: dato un set di strumenti e una richiesta in italiano, il modello deve raggiungere un obiettivo agendo in più turni. A differenza del function calling single-turn, qui ogni mossa dipende dal risultato della precedente: l'id del volo più economico non si può indovinare, va prima recuperato.
L'ambiente
Ogni task gira in un mondo giocattolo deterministico: gli strumenti (cerca/prenota) leggono e mutano uno stato, e gli stessi argomenti danno sempre gli stessi risultati (nessuna casualità, nessun orologio). Il modello chiama uno strumento, l'engine lo esegue e gli rimanda il risultato, fino a obiettivo raggiunto o a un tetto di turni.
Come viene assegnato il voto
Il voto è binario e sullo stato finale, non sulla traiettoria (che può variare legittimamente):
- si guarda cosa è stato prenotato a fine dialogo;
- l'atteso è ricalcolato eseguendo le stesse query deterministiche (es. «il 4 stelle più economico») — niente
idscritti a mano; - lo stato deve coincidere esattamente: prenotazione giusta, nessuna prenotazione spuria; i nomi si confrontano per token.
Sapersi fermare
Alcuni task sono condizionali («prenota solo se costa meno di X, altrimenti nulla»): l'esito corretto può essere non agire. Si testa la moderazione, non solo l'azione.
Perché così
La verità è eseguibile: si verifica lo stato del mondo, senza affidarsi a un giudice LLM. E poiché le sequenze sono fatte di passi singoli e dipendenti, un modello che fa una chiamata per turno (tipico dei locali) non è penalizzato come nel tool use parallelo.
Quali eval lo usano
- Agente di viaggio: tool use in sequenza (italiano) (agentic-it)
- Agente di viaggio HARD: catene lunghe e vincoli (italiano) (agentic-long-it)
- Agente di viaggio XHARD: vincoli combinati e trappole (italiano) (agentic-xhard-it)