evals.stream Benchmark LLM · Italiano
← tutti gli scorer

Scoring: agentic (multi-turn)

Tool use in sequenza dentro un ambiente simulato: il modello cerca, legge il risultato e agisce. Voto binario sullo stato finale, ricalcolato dalle query deterministiche.

Ground truth eseguibile. Non si giudica la traiettoria né la prosa, ma lo stato finale dell'ambiente (cosa è stato prenotato). L'atteso è ricalcolato dall'ambiente, non codificato a mano. Nessun giudice LLM.

Cosa misura

Un compito agentic: dato un set di strumenti e una richiesta in italiano, il modello deve raggiungere un obiettivo agendo in più turni. A differenza del function calling single-turn, qui ogni mossa dipende dal risultato della precedente: l'id del volo più economico non si può indovinare, va prima recuperato.

L'ambiente

Ogni task gira in un mondo giocattolo deterministico: gli strumenti (cerca/prenota) leggono e mutano uno stato, e gli stessi argomenti danno sempre gli stessi risultati (nessuna casualità, nessun orologio). Il modello chiama uno strumento, l'engine lo esegue e gli rimanda il risultato, fino a obiettivo raggiunto o a un tetto di turni.

Come viene assegnato il voto

Il voto è binario e sullo stato finale, non sulla traiettoria (che può variare legittimamente):

Sapersi fermare

Alcuni task sono condizionali («prenota solo se costa meno di X, altrimenti nulla»): l'esito corretto può essere non agire. Si testa la moderazione, non solo l'azione.

Perché così

La verità è eseguibile: si verifica lo stato del mondo, senza affidarsi a un giudice LLM. E poiché le sequenze sono fatte di passi singoli e dipendenti, un modello che fa una chiamata per turno (tipico dei locali) non è penalizzato come nel tool use parallelo.

Quali eval lo usano