Home | Benched.ai

Recent model releases

See more models...

Best LLM / Reasoning

DeepIntel benchmark

1
o3OpenAI
150
2
Gemini 2.5 ProGoogle
132
3
Claude Opus 4Anthropic
126

Best LLM / Agentic Vibe Coding

SocialVibes benchmark

1
Claude 4 Opus+SonnetAnthropic
91.7
2
Claude Sonnet 3.5 1022Anthropic
90.5
3
Gemini 2.5 Pro 0605Google
89.4

Best LLM / Knowledge

GPQA benchmark

1
Gemini 3.1 Pro PreviewGoogle
94.1
2
GPT-5.5 (xhigh)OpenAI
93.5
3
MiniMax-M3MiniMax
92.9

Best LLM / Coding

Aider benchmark

1
GPT-5OpenAI
88.0
2
Gemini 2.5 Pro 0605 PreviewGoogle
83.1
3
Gemini 2.5 ProGoogle
83.1

Best LLM / Multimodal

MMMU benchmark

1
o3OpenAI
82.9
2
o4-mini (high)OpenAI
81.6
3
Grok 3xAI
78.0

Best LLM / Fastest

Inference tokens/sec

1
Gemini 2.5 Flash-Lite (Reasoning)Google
585
2
DeepSeek R1 Distill Qwen 1.5BDeepSeek
387
3
Gemini 2.5 Flash Preview (Reasoning)Google
372

Best LLM / Context

Longest context in tokens

1
Llama 4 ScoutMeta
10M
2
MiniMax-Text-01MiniMax
4M
3
Gemini 1.5 Pro (May '24)Google
2M

Best LLM / Cost

Lowest $ per 1M tokens

1
Gemma 3 4B InstructGoogle
$0.03
2
DeepSeek R1 Distill Llama 8BDeepSeek
$0.04
3
Ministral 3BMistral
$0.04

Intelligence over time

Companies

See more companies...