mlc-ai · junrushao · Nov 16, 2023 · Nov 16, 2023
diff --git a/python/mlc_chat/compiler/quantization/group_quantization.py b/python/mlc_chat/compiler/quantization/group_quantization.py
@@ -283,13 +283,11 @@ def __init__(  # pylint: disable=too-many-arguments
         self.out_features = out_features
         self.out_dtype = out_dtype
         self.config = config
+        num_group = tir.ceildiv(in_features, config.group_size)
         self.q_weight = nn.Parameter(
-            (out_features, tir.ceildiv(in_features, config.num_elem_per_storage)),
-            config.storage_dtype,
-        )
-        self.q_scale = nn.Parameter(
-            (out_features, tir.ceildiv(in_features, config.group_size)), config.model_dtype
+            (out_features, config.num_storage_per_group * num_group), config.storage_dtype
         )
+        self.q_scale = nn.Parameter((out_features, num_group), config.model_dtype)
         if bias:
             self.bias = nn.Parameter((out_features,), config.model_dtype)
         else:
@@ -370,14 +368,12 @@ def __init__(  # pylint: disable=too-many-arguments
         self.out_features = out_features
         self.out_dtype = out_dtype
         self.config = config
+        num_group = tir.ceildiv(in_features, config.group_size)
         self.q_weight = nn.Parameter(
-            (self.total_out_features, tir.ceildiv(in_features, config.num_elem_per_storage)),
+            (self.total_out_features, config.num_storage_per_group * num_group),
             config.storage_dtype,
         )
-        self.q_scale = nn.Parameter(
-            (self.total_out_features, tir.ceildiv(in_features, config.group_size)),
-            config.model_dtype,
-        )
+        self.q_scale = nn.Parameter((self.total_out_features, num_group), config.model_dtype)
         if bias:
             self.bias = nn.Parameter((self.total_out_features,), config.model_dtype)
         else:
@@ -456,14 +452,11 @@ def __init__(self, num: int, dim: int, config: GroupQuantize):
         self.num = num
         self.dim = dim
         self.config = config
+        num_group = tir.ceildiv(dim, config.group_size)
         self.q_weight = nn.Parameter(
-            (num, tir.ceildiv(dim, config.num_elem_per_storage)),
-            config.storage_dtype,
-        )
-        self.q_scale = nn.Parameter(
-            (num, tir.ceildiv(dim, config.group_size)),
-            config.model_dtype,
+            (num, config.num_storage_per_group * num_group), config.storage_dtype
         )
+        self.q_scale = nn.Parameter((num, num_group), config.model_dtype)
 
     @staticmethod
     def from_embedding(embedding: nn.Embedding, config: GroupQuantize) -> "GroupQuantizeEmbedding":

diff --git a/tests/python/quantization/test_group_quantization.py b/tests/python/quantization/test_group_quantization.py
@@ -129,14 +129,13 @@ def forward(self, x: nn.Tensor):
 
     config = QUANTIZATION[quant_name]
     assert isinstance(config, GroupQuantize)
+    num_group = -(shape[1] // -config.group_size)
     weight_np = np.random.randint(
         np.iinfo(config.storage_dtype).min,
         np.iinfo(config.storage_dtype).max,
-        (shape[0], -(shape[1] // -config.num_elem_per_storage)),
+        (shape[0], config.num_storage_per_group * num_group),
     ).astype(config.storage_dtype)
-    scale_np = np.random.random((shape[0], -(shape[1] // -config.group_size))).astype(
-        config.model_dtype
-    )
+    scale_np = np.random.random((shape[0], num_group)).astype(config.model_dtype)
     mod = config.quantize_model(Test(), QuantizeMapping({}, {}), "")
     mod.linear.q_weight.data = weight_np
     mod.linear.q_scale.data = scale_np