Scoring: function calling (tool-call)
Function calling: date alcune funzioni e una richiesta in italiano, il modello deve produrre le chiamate giuste (nome + argomenti), confrontate con un gold eseguibile.
Cosa misura
Il function calling: dati alcuni strumenti (con i loro parametri) e una richiesta in italiano, il modello deve produrre le chiamate giuste — nome della funzione e argomenti. Non si valuta la prosa, ma le azioni.
Come vengono confrontate le chiamate
Le chiamate del modello si confrontano con quelle gold in modo insiemistico (l'ordine non conta), in stile AST / BFCL:
- il nome della funzione deve coincidere;
- gli argomenti devono formare lo stesso insieme di quelli attesi: un argomento in più è un errore (es. un filtro non richiesto, una valuta sbagliata);
- i parametri opzionali lasciati al valore di default sono normalizzati (contano come omessi);
- le date relative («oggi», «domani») sono risolte rispetto a una data di riferimento;
- i numeri si confrontano come numeri (
2=2.0).
Campi a testo libero
Alcuni argomenti sono linguaggio naturale (reason, query, subject, description, body, notes, message): qui non si pretende un match esatto — basta che il modello li abbia forniti, non vuoti.
Rilevanza (gold vuoto)
Se la gold è vuota, la richiesta è una trappola di rilevanza: il modello non deve chiamare alcuno strumento. Chiamare qualcosa è un errore.
Perché così
La verità è eseguibile: nessun giudice LLM. Il grading severo (ogni argomento extra è errore) rende visibili sovra-specificazione ed esitazioni. Il function calling non è deterministico, perciò gli eval si ripetono e la classifica riporta media e range.
Quali eval lo usano
- Uso di strumenti (function calling) in italiano (tool-use-it)