Qwen2.5 72B Instruct

72B

Alibaba Qwen2.5

Flagship Qwen2.5. Requires dual 4090 or A100 80G. Exceptional reasoning at scale.

⬇ 3.0K HF downloads♥ 44 likesQwen/Qwen2.5-72B-Instruct-GGUF· stats from 6/24/2026

Pro GPU

131K

Max Context

Quant Variants

GGUF Q5_K_M

Best Quality

98.9%

Accuracy Retained

Quantization Variants

Per-quant VRAM, quality loss, and inference speed on RTX 4090

Format	Level	BPW	VRAM	PPL Loss	Speed	Actions
GGUF	Q4_K_M	4.85	43.6 GB	2.5%	28 tok/s	Calc HF
GGUF	Q5_K_M	5.68	50.1 GB	1.1%	24 tok/s	Calc HF
AWQ	INT4	4	38.5 GB	3.5%	42 tok/s	Calc HF
EXL2	3.5bpw	3.5	33.8 GB	4.8%	48 tok/s	Calc HF