evals.stream Benchmark LLM · Italiano
← tutti gli scorer

Scoring: function calling (tool-call)

Function calling: date alcune funzioni e una richiesta in italiano, il modello deve produrre le chiamate giuste (nome + argomenti), confrontate con un gold eseguibile.

Ground truth eseguibile. Si valuta cosa il modello fa (le chiamate), non cosa dice. Confronto con le chiamate corrette, senza giudice LLM.

Cosa misura

Il function calling: dati alcuni strumenti (con i loro parametri) e una richiesta in italiano, il modello deve produrre le chiamate giuste — nome della funzione e argomenti. Non si valuta la prosa, ma le azioni.

Come vengono confrontate le chiamate

Le chiamate del modello si confrontano con quelle gold in modo insiemistico (l'ordine non conta), in stile AST / BFCL:

Campi a testo libero

Alcuni argomenti sono linguaggio naturale (reason, query, subject, description, body, notes, message): qui non si pretende un match esatto — basta che il modello li abbia forniti, non vuoti.

Rilevanza (gold vuoto)

Se la gold è vuota, la richiesta è una trappola di rilevanza: il modello non deve chiamare alcuno strumento. Chiamare qualcosa è un errore.

Perché così

La verità è eseguibile: nessun giudice LLM. Il grading severo (ogni argomento extra è errore) rende visibili sovra-specificazione ed esitazioni. Il function calling non è deterministico, perciò gli eval si ripetono e la classifica riporta media e range.

Quali eval lo usano