evals.stream Benchmark LLM · Italiano
← tutti gli eval

Uso di strumenti (function calling) in italiano

18 domande · scoring tool-call · contaminazione low

Com'è andata

Questo eval misura il function calling: dato un set di strumenti e una richiesta in italiano, il modello deve produrre le chiamate giuste (nome + argomenti). La verità di riferimento è eseguibile — si confronta la chiamata con il gold, senza giudice LLM. Ripetuto 2 volte per modello.

Il tool use "semplice" è ormai quasi risolto per i modelli di frontiera: Sonnet 4.6, DeepSeek V4 Flash e Qwen3-235B arrivano al 100%, e la maggioranza sta sopra il 94%. Il divario vero emerge sulle richieste parallele e su quelle che chiedono di agire con decisione.

Come sbagliano (i modi ricorrenti)

La lettura

Il divario non è "GPT non sa usare gli strumenti", ma piuttosto: i GPT piccoli esitano ad agire e sovra-decompongono, mentre il modello grande è solido e cade solo sulla severità del grading. Modelli non-OpenAI (Claude, DeepSeek, Qwen, GLM) qui tendono ad agire in modo più diretto.

Note di metodo

Aggiornare questo commento quando si aggiungono modelli o ripetizioni.