Qwen2.5 32B Instruct

32B

Alibaba Qwen2.5

Near-GPT-4 reasoning on a 24GB VRAM card (Q4_K_S). Groundbreaking value.

⬇ 32.5K HF downloads♥ 45 likesQwen/Qwen2.5-32B-Instruct-GGUF· stats from 6/24/2026

Consumer GPUPro GPU

131K

Max Context

Quant Variants

GGUF Q4_K_M

Best Quality

97.3%

Accuracy Retained

Quantization Variants

Per-quant VRAM, quality loss, and inference speed on RTX 4090

Format	Level	BPW	VRAM	PPL Loss	Speed	Actions
GGUF	Q3_K_M	3.87	17.5 GB	7.8%	52 tok/s	Calc HF
GGUF	Q4_K_M	4.85	22.0 GB	2.7%	44 tok/s	Calc HF
EXL2	3.5bpw	3.5	16.4 GB	4.8%	68 tok/s	Calc HF