LLM inference pricing

Compare token pricing for hosted LLM inference: output $/M tokens, context window, quality, and provider count.

17 models

Model	Developer	Type	Params	Released	Elo	Context	In $/1M	Out $/1M	Providers
GPT-5	OpenAI	Closed	-	-	1410	400K	$2.50	$15.00	3	Compare →
Claude Opus 4.8	Anthropic	Closed	-	-	1430	1000K	$15.00	$75.00	4	Compare →
Gemini 2.5 Pro	Google	Closed	-	-	1390	2000K	$1.25	$10.00	2	Compare →
Claude Sonnet 4.6	Anthropic	Closed	-	-	1400	1000K	$3.00	$15.00	4	Compare →
DeepSeek R1	DeepSeek	Open weights	671B	-	1370	128K	$0.550	$0.990	3	Compare →
GPT-5 mini	OpenAI	Closed	-	-	1360	400K	$0.450	$1.80	3	Compare →
DeepSeek V3	DeepSeek	Open weights	671B	-	1350	128K	$0.490	$0.890	3	Compare →
Gemini 2.5 Flash	Google	Closed	-	-	1345	1000K	$0.300	$2.50	2	Compare →
GPT-4.1	OpenAI	Closed	-	-	1335	1000K	$2.00	$8.00	3	Compare →
Claude Haiku 4.5	Anthropic	Closed	-	-	1320	200K	$1.00	$5.00	4	Compare →
Llama 3.1 405B	Meta	Open weights	405B	-	1305	128K	$3.00	$3.00	4	Compare →
Mistral Large 2	Mistral AI	Open weights	123B	-	1295	128K	$2.00	$6.00	4	Compare →
Llama 3.3 70B	Meta	Open weights	70B	-	1290	128K	$0.230	$0.400	5	Compare →
Qwen 2.5 72B	Alibaba	Open weights	72B	-	1285	131K	$0.130	$0.400	4	Compare →
GPT-4.1 nano	OpenAI	Closed	-	-	1255	1000K	$0.100	$0.400	3	Compare →
Mistral Small 3	Mistral AI	Open weights	24B	-	1240	128K	$0.200	$0.600	3	Compare →
Llama 3.1 8B	Meta	Open weights	8B	-	1180	128K	$0.030	$0.050	4	Compare →

GPT-5 Closed

OpenAI

$15.00

output / 1M tokens

Elo 1410

Context 400K

In $/1M $2.50

Providers 3

OpenAI's flagship frontier model.

Compare providers →

Claude Opus 4.8 Closed

Anthropic

$75.00

output / 1M tokens

Elo 1430

Context 1000K

In $/1M $15.00

Providers 4

Anthropic's most capable model for hard reasoning and coding.

Compare providers →

Gemini 2.5 Pro Closed

Google

$10.00

output / 1M tokens

Elo 1390

Context 2000K

In $/1M $1.25

Providers 2

Google's flagship multimodal model with a 2M-token context.

Compare providers →

Claude Sonnet 4.6 Closed

Anthropic

$15.00

output / 1M tokens

Elo 1400

Context 1000K

In $/1M $3.00

Providers 4

Balanced Claude tier; strong coding at lower cost than Opus.

Compare providers →

DeepSeek R1 Open weights

DeepSeek

$0.990

output / 1M tokens

Params 671B

Elo 1370

Context 128K

In $/1M $0.550

Providers 3

Open-weight reasoning model competitive with closed o-series.

Compare providers →

GPT-5 mini Closed

OpenAI

$1.80

output / 1M tokens

Elo 1360

Context 400K

In $/1M $0.450

Providers 3

Smaller, cheaper GPT-5 tier for high-volume workloads.

Compare providers →

DeepSeek V3 Open weights

DeepSeek

$0.890

output / 1M tokens

Params 671B

Elo 1350

Context 128K

In $/1M $0.490

Providers 3

Open-weight MoE model offering frontier quality at low cost.

Compare providers →

Gemini 2.5 Flash Closed

Google

$2.50

output / 1M tokens

Elo 1345

Context 1000K

In $/1M $0.300

Providers 2

Cost-efficient Gemini tier tuned for speed and scale.

Compare providers →

GPT-4.1 Closed

OpenAI

$8.00

output / 1M tokens

Elo 1335

Context 1000K

In $/1M $2.00

Providers 3

Long-context GPT-4 generation model.

Compare providers →

Claude Haiku 4.5 Closed

Anthropic

$5.00

output / 1M tokens

Elo 1320

Context 200K

In $/1M $1.00

Providers 4

Fast, inexpensive Claude tier for latency-sensitive apps.

Compare providers →

Llama 3.1 405B Open weights