Llama 3.1 Nemotron Ultra 253B v1 (Reasoning)

NVIDIA

Frontier ModelReasoningOpen

Context

Release Date: Apr 07, 2025
Window: 128k

PricingPer 1M tokens

Input: $0.6
Output: $1.8
Blended 3:1: $0.9

Capabilities

Speed: 43 t/s
Input
Output
Reasoning tokens

Latency

TTFT: 0.65 ms
500 token response: 59.17 s

Benchmarks

Reasoning: ●●●○○
Math: ●●●●○
Coding: ●●○○○
MMLU Pro: 82.5%
GPQA: 72.8%
HLE: 8.1%
SciCode: 34.7%
AIME: 74.7%
MATH 500: 95.2%
LiveCodeBench: 64.1%