pytorch · acisseJZhong · Feb 6, 2025 · Feb 6, 2025 · Feb 6, 2025
diff --git a/torchtune/training/_distributed.py b/torchtune/training/_distributed.py
@@ -33,6 +33,7 @@
 from torchtune.modules.attention import MultiHeadAttention
 from torchtune.modules.model_fusion import DeepFusionModel
 
+from torchtune.modules.peft import get_adapter_state_dict
 from torchtune.utils import get_device, get_logger
 from torchtune.utils._logging import deprecated
 
@@ -380,6 +381,8 @@ def gather_cpu_state_dict(
         if is_rank_zero:
             cpu_state_dict[param_name] = param.cpu()
         torch.distributed.barrier()
+    if adapter_weights_only:
+        cpu_state_dict = get_adapter_state_dict(cpu_state_dict, device=None)
     return cpu_state_dict