Q8_0_R4 #120

ikawrakow · 2024-12-03T05:11:11Z

Following PR #118, #119: Q8_0 repacked with 4 interleaved rows.

PP-512 for LLaMA-3.1-8B for ARM_NEON (M2-Max), Zen4 (Ryzen-7950X) and AVX2 (Risen-5975WX):

Platform	Threads	Q8_0	Q8_0_R4	Speedup
ARM_NEON	8	83.69 ± 1.53	112.95 ± 0.17	1.350
Zen4	16	175.61 ± 0.71	268.98 ± 0.31	1.532
AVX2	32	213.95 ± 0.44	234.40 ± 0.60	1.096

We get PP-512(LLaMA-3.1-8B) = 268 t/s on a Ryzen-7950X compared to 175.6 t/s for Q8_0.

We get PP-512(LLaMA-3.1-8B) = 112.6 t/s on M2-Max.

Kawrakow added 3 commits December 2, 2024 19:22

Adding q8_0_r4

e1b922d

We get PP-512(LLaMA-3.1-8B) = 268 t/s on a Ryzen-7950X compared to 175.6 t/s for Q8_0.

q8_0_r4: NEON

fc781be

We get PP-512(LLaMA-3.1-8B) = 112.6 t/s on M2-Max.

q8_0_r4: Zen4 matrix-vector specialization

4559dc5

ikawrakow merged commit ccec009 into main Dec 3, 2024

This was referenced Dec 3, 2024

Q5_0_R4 #121

Merged

Q6_0_R4 #122

Merged

IQ4_XS_R4 #123

Merged

iq2_bn_r4: fastest Bitnet CPU implementation on the planet #124

Merged

Q4_0_R4 on CUDA #127

Draft

Q4_K_R4 #129

Merged

Q6_K_R4 #130

Merged

This was referenced Dec 10, 2024

Q5_K_R4 #132

Merged

Q3_K_R4 #134

Merged

Q2_K_R4 #136

Merged

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Q8_0_R4 #120

Q8_0_R4 #120

ikawrakow commented Dec 3, 2024

Q8_0_R4 #120

Q8_0_R4 #120

Conversation

ikawrakow commented Dec 3, 2024