[SLM] Fuse FasterTransformer dequantize matmul epilogue #1544

cyx-6 · 2024-01-05T12:11:02Z

This PR enables FasterTransformer dequantize matmul epilogue fusion.

python/mlc_chat/op/gemm.py

python/mlc_chat/compiler_pass/fuse_dequantize_matmul_epilogue.py

junrushao

Awesome! This is a masterpiece!

cyx-6 force-pushed the fuse-dequantize-matmul-epilogue branch from 7ae8c27 to d4a0fd2 Compare January 5, 2024 12:27

[SLM] Fuse FasterTransformer dequantize matmul epilogue

f41c927

This PR enables FasterTransformer dequantize matmul epilogue fusion.

cyx-6 force-pushed the fuse-dequantize-matmul-epilogue branch from 47b9865 to f41c927 Compare January 6, 2024 02:17

junrushao reviewed Jan 7, 2024

View reviewed changes

python/mlc_chat/op/gemm.py Show resolved Hide resolved

junrushao reviewed Jan 7, 2024

View reviewed changes

python/mlc_chat/compiler_pass/fuse_dequantize_matmul_epilogue.py Outdated Show resolved Hide resolved

cyx-6 added 2 commits January 7, 2024 10:53

apply code review suggestions

b0b41bf

fix lint and tests

9bba6c2

junrushao approved these changes Jan 7, 2024

View reviewed changes

junrushao merged commit 78f283c into mlc-ai:main Jan 7, 2024

Provide feedback