databricks · tgale96 · Nov 6, 2023 · Nov 6, 2023 · Nov 6, 2023 · Nov 6, 2023
diff --git a/megablocks/layers/moe.py b/megablocks/layers/moe.py
@@ -299,7 +299,8 @@ def parallel_forward_once(self, x, expert_weights, top_experts):
             # TODO(tgale): It might be faster to do this on the GPU and
             # then communicate the results back to the host.
             send_counts = repeated_tokens_per_expert.cpu().sum(dim=-1)
-            recv_counts = parallel_tokens_per_expert.cpu().sum(dim=-1)
+            parallel_tokens_per_expert_cpu = parallel_tokens_per_expert.cpu()
+            recv_counts = parallel_tokens_per_expert_cpu.sum(dim=-1)
 
             # Convert the send/recv counts to lists.
             send_counts = send_counts.tolist()
@@ -374,6 +375,12 @@ def parallel_forward_once(self, x, expert_weights, top_experts):
 
         # Locally permute the tokens and perform the expert computation.
         # Block to make sure that the cross-device permutation is complete.
+        if isinstance(self.mlp, mlp.GroupedMLP):
+            # GroupedMLP requires counts on CPU. We can use the tensor already
+            # moved to CPU for the prior all_to_all, which avoids an extra
+            # device synchronization.
+            parallel_tokens_per_expert = parallel_tokens_per_expert_cpu.sum(
+                dim=0, dtype=torch.int)
         parallel_x_handle.wait()
         parallel_x = self.permute_and_compute(
             parallel_x,