DeepSeek-V2-Lite Chat

16B

DeepSeek

MoE general model (~2.4B active). Long context and strong multilingual chat.

Consumer GPUMac / Apple Silicon

164K

Max Context

Quant Variants

GGUF Q4_K_M

Best Quality

97.0%

Accuracy Retained

Quantization Variants

Per-quant VRAM, quality loss, and inference speed on RTX 4090

Format	Level	BPW	VRAM	PPL Loss	Speed	Actions
GGUF	Q4_K_M	4.85	11.0 GB	3.0%	142 tok/s	Calc HF
AWQ	INT4	4	9.6 GB	4.0%	188 tok/s	Calc HF