Stable LM 2 12B Chat

12B

Stability AI

Stability AI's 12B chat model. Solid general-purpose option for 16GB GPUs.

Consumer GPUMac / Apple Silicon

Max Context

Quant Variants

GGUF Q4_K_M

Best Quality

96.8%

Accuracy Retained

Quantization Variants

Per-quant VRAM, quality loss, and inference speed on RTX 4090

Format	Level	BPW	VRAM	PPL Loss	Speed	Actions
GGUF	Q4_K_M	4.85	8.2 GB	3.2%	108 tok/s	Calc HF
AWQ	INT4	4	7.2 GB	4.5%	142 tok/s	Calc HF