Scoring: function calling (tool-call)

Function calling: date alcune funzioni e una richiesta in italiano, il modello deve produrre le chiamate giuste (nome + argomenti), confrontate con un gold eseguibile.

Ground truth eseguibile. Si valuta cosa il modello fa (le chiamate), non cosa dice. Confronto con le chiamate corrette, senza giudice LLM.

Cosa misura

Il function calling: dati alcuni strumenti (con i loro parametri) e una richiesta in italiano, il modello deve produrre le chiamate giuste — nome della funzione e argomenti. Non si valuta la prosa, ma le azioni.

Come vengono confrontate le chiamate

Le chiamate del modello si confrontano con quelle gold in modo insiemistico (l'ordine non conta), in stile AST / BFCL:

il nome della funzione deve coincidere;
gli argomenti devono formare lo stesso insieme di quelli attesi: un argomento in più è un errore (es. un filtro non richiesto, una valuta sbagliata);
i parametri opzionali lasciati al valore di default sono normalizzati (contano come omessi);
le date relative («oggi», «domani») sono risolte rispetto a una data di riferimento;
i numeri si confrontano come numeri (2 = 2.0).

Campi a testo libero

Alcuni argomenti sono linguaggio naturale (reason, query, subject, description, body, notes, message): qui non si pretende un match esatto — basta che il modello li abbia forniti, non vuoti.

Rilevanza (gold vuoto)

Se la gold è vuota, la richiesta è una trappola di rilevanza: il modello non deve chiamare alcuno strumento. Chiamare qualcosa è un errore.

Perché così

La verità è eseguibile: nessun giudice LLM. Il grading severo (ogni argomento extra è errore) rende visibili sovra-specificazione ed esitazioni. Il function calling non è deterministico, perciò gli eval si ripetono e la classifica riporta media e range.

Quali eval lo usano

Uso di strumenti (function calling) in italiano (tool-use-it)