Inference Catalog | Inference Endpoints

Falcon-180B-Chat-GPTQ

Text Generation

TGI

Accelerated Text Generation Inference

GPU 2x Nvidia A100

$ 8

/ hour

black-forest-labs /

FLUX.1-schnell

Text-to-Image

GPU 1x Nvidia L40S

$ 1.8

/ hour

gemma-2-27b

Text Generation

TGI

Accelerated Text Generation Inference

GPU 4x Nvidia L4

$ 3.8

/ hour

gemma-2-27b-it

Text Generation

TGI

Accelerated Text Generation Inference

GPU 4x Nvidia L4

$ 3.8

/ hour

gemma-2-2b

Text Generation

CPU 4x Intel Sapphire Rapids

$ 0.134

/ hour

gemma-2-2b-it

Text Generation

CPU 4x Intel Sapphire Rapids

$ 0.134

/ hour

gemma-2-9b

Text Generation

TGI

Accelerated Text Generation Inference

GPU 1x Nvidia L4

$ 0.8

/ hour

gemma-2-9b-it

Text Generation

TGI

Accelerated Text Generation Inference

GPU 1x Nvidia L4

$ 0.8

/ hour

gemma-2b

Text Generation

TGI

Accelerated Text Generation Inference

GPU 1x Nvidia L4

$ 0.8

/ hour

gemma-2b-it

Text Generation

TGI

Accelerated Text Generation Inference

GPU 1x Nvidia L4

$ 0.8

/ hour

gemma-7b

Text Generation

TGI

Accelerated Text Generation Inference

GPU 1x Nvidia L4

$ 0.8

/ hour

gemma-7b-it

Text Generation

TGI

Accelerated Text Generation Inference

GPU 1x Nvidia L4

$ 0.8

/ hour

thenlper /

gte-large

Sentence Embeddings

TEI

Accelerated Text Embeddings Inference

CPU 2x Intel Sapphire Rapids

$ 0.067

/ hour

thenlper /

gte-large-zh

Sentence Embeddings

TEI

Accelerated Text Embeddings Inference

CPU 2x Intel Sapphire Rapids

$ 0.067

/ hour

Llama-2-13B-chat-GPTQ

Text Generation

TGI

Accelerated Text Generation Inference

GPU 1x Nvidia L4

$ 0.8

/ hour

Llama-2-70B-chat-GPTQ

Text Generation

TGI

Accelerated Text Generation Inference

GPU 2x Nvidia A100

$ 8

/ hour

Llama-2-7b

Text Generation

GPU 1x Nvidia L4

$ 0.8

/ hour

Llama-2-7b-chat-hf

Text Generation

GPU 1x Nvidia L4

$ 0.8

/ hour

Llama-2-7b-hf

Text Generation

GPU 1x Nvidia L4

$ 0.8

/ hour

Llama-3-70B

Text Generation

TGI

Accelerated Text Generation Inference

GPU 4x Nvidia L40S

$ 8.3

/ hour

Llama-3-70B-Instruct

Text Generation

TGI

Accelerated Text Generation Inference

GPU 4x Nvidia L40S

$ 8.3

/ hour

Llama-3-8B

Text Generation

TGI

Accelerated Text Generation Inference

GPU 1x Nvidia L4

$ 0.8

/ hour

Llama-3-8B-Instruct

Text Generation

TGI

Accelerated Text Generation Inference

GPU 1x Nvidia L4

$ 0.8

/ hour

Llama-3.1-70B

Text Generation

TGI

Accelerated Text Generation Inference

GPU 4x Nvidia L40S

$ 8.3

/ hour

Llama-3.1-70B-Instruct

Text Generation

TGI

Accelerated Text Generation Inference

GPU 4x Nvidia L40S

$ 8.3

/ hour

Llama-3.1-8B

Text Generation

TGI

Accelerated Text Generation Inference

GPU 1x Nvidia L4

$ 0.8

/ hour

Llama-3.1-8B-Instruct

Text Generation

TGI

Accelerated Text Generation Inference

GPU 1x Nvidia L4

$ 0.8

/ hour

Llama-3.2-11B-Vision-Instruct

Image-Text-to-Text

TGI

Accelerated Text Generation Inference

GPU 1x Nvidia L4

$ 0.8

/ hour

Llama-3.2-1B

Text Generation

TGI

Accelerated Text Generation Inference

GPU 1x Nvidia T4

$ 0.5

/ hour

Llama-3.2-1B-Instruct

Text Generation

TGI

Accelerated Text Generation Inference

GPU 1x Nvidia T4

$ 0.5

/ hour

Llama-3.2-3B

Text Generation

TGI

Accelerated Text Generation Inference

GPU 1x Nvidia T4

$ 0.5

/ hour

Llama-3.2-3B-Instruct

Text Generation

TGI

Accelerated Text Generation Inference

GPU 1x Nvidia T4

$ 0.5

/ hour

Mistral-7B-Instruct-v0.1

Text Generation

TGI

Accelerated Text Generation Inference

GPU 1x Nvidia L4

$ 0.8

/ hour

Mistral-7B-Instruct-v0.3

Text Generation

TGI

Accelerated Text Generation Inference

GPU 1x Nvidia L4

$ 0.8

/ hour

Mistral-7B-v0.3

Text Generation

TGI

Accelerated Text Generation Inference

GPU 1x Nvidia L4

$ 0.8

/ hour

Mistral-Nemo-Instruct-2407

Text Generation

TGI

Accelerated Text Generation Inference

GPU 1x Nvidia L40S

$ 1.8

/ hour

Mixtral-8x7B-Instruct-v0.1

Text Generation

TGI

Accelerated Text Generation Inference

GPU 2x Nvidia A100

$ 8

/ hour

cross-encoder /

ms-marco-MiniLM-L-12-v2

Sentence Ranking

CPU 1x Intel Sapphire Rapids

$ 0.033

/ hour

intfloat /

multilingual-e5-large

Sentence Embeddings

TEI

Accelerated Text Embeddings Inference

GPU 1x Nvidia T4

$ 0.5

/ hour

intfloat /

multilingual-e5-large-instruct

Sentence Embeddings

TEI

Accelerated Text Embeddings Inference

GPU 1x Nvidia T4

$ 0.5

/ hour

mixedbread-ai /

mxbai-embed-large-v1

Sentence Embeddings

TEI

Accelerated Text Embeddings Inference

GPU 1x Nvidia L4

$ 0.8

/ hour

Intel /

neural-chat-7b-v3-1

Text Generation

TGI

Accelerated Text Generation Inference

GPU 1x Nvidia L4

$ 0.8

/ hour

NeuralHermes-2.5-Mistral-7B-GPTQ

Text Generation

TGI

Accelerated Text Generation Inference

GPU 1x Nvidia L4

$ 0.8

/ hour

allenai /

OLMo-7B-0724-Instruct-hf

Text Generation

TGI

Accelerated Text Generation Inference

GPU 1x Nvidia L40S

$ 1.8

/ hour

openchat /

openchat-3.5-0106

Text Generation

TGI

Accelerated Text Generation Inference

GPU 1x Nvidia L4

$ 0.8

/ hour