aarch64 GEMM kernel #27

robertknight · 2024-01-02T01:48:34Z

Implement a GEMM kernel optimized for arm64 / aarch64.

Performance on an AWS c6g.xlarge instance (Graviton 2, 4 vCPU) with the generic kernel:

$ cargo test -p rten --release bench_gemm -- --nocapture --ignored
m 512 n 512 k 512 iters 1000. Duration 4093.245ms (4.093245ms/iter). GFLOPS 65.58011
m 1024 n 1024 k 1024 iters 125. Duration 4047.818ms (32.382545ms/iter). GFLOPS 66.316086
m 128 n 2048 k 512 iters 1000. Duration 4262.264ms (4.2622643ms/iter). GFLOPS 62.97955
m 2048 n 128 k 512 iters 1000. Duration 4100.306ms (4.100306ms/iter). GFLOPS 65.46718

gemm-benchmark performance for comparison, using the BLIS backend:

$ gemm-benchmark -d 1024 -t 4
Threads: 4
Iterations per thread: 1000
Matrix shape: 1024 x 1024
GFLOPS: 145.50

The OpenBLAS backend reports similar numbers (~150).

The text was updated successfully, but these errors were encountered:

robertknight · 2024-01-02T21:42:08Z

#30 added an initial kernel which improves performance from ~43% to ~78% of OpenBLAS (65 => 114 GFLOPS), tested on an AWS Graviton 2, but is still relying on auto-vectorization rather than intrinsics, and doesn't do any prefetching.

robertknight · 2024-01-05T23:37:14Z

There are further optimizations possible (eg. prefetching), but #32 is a decent start. Compared to the generic kernel, M=N=K=1024 performance has improved from ~66 GFLOPS on an AWS c6g.xlarge to ~135 GFLOPS.

robertknight added the performance Issues that affect model inference or loading performance label Jan 2, 2024

robertknight mentioned this issue Jan 2, 2024

Add an initial non-optimized ARM NEON kernel #30

Merged

This was referenced Jan 5, 2024

Apple AMX support #18

Open

Optimize aarch64 GEMM kernel #32

Merged

robertknight closed this as completed Jan 5, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

aarch64 GEMM kernel #27

aarch64 GEMM kernel #27

robertknight commented Jan 2, 2024 •

edited

Loading

robertknight commented Jan 2, 2024 •

edited

Loading

robertknight commented Jan 5, 2024 •

edited

Loading

aarch64 GEMM kernel #27

aarch64 GEMM kernel #27

Comments

robertknight commented Jan 2, 2024 • edited Loading

robertknight commented Jan 2, 2024 • edited Loading

robertknight commented Jan 5, 2024 • edited Loading

robertknight commented Jan 2, 2024 •

edited

Loading

robertknight commented Jan 2, 2024 •

edited

Loading

robertknight commented Jan 5, 2024 •

edited

Loading