Claude 3.7 Sonnet Crushes TAU-bench for Agentic Tool Use

Results: 81.2% in retail (vs 73.5% OpenAI o1) 58.4% in airline (vs 54.2% OpenAI o1) Significantly better than Claude 3.5 Sonnet