fix deepseek_vl2

Jintao-Huang · Feb 23, 2025 · df4bc70 · df4bc70
1 parent 2433f48
commit df4bc70
Show file tree

Hide file tree

Showing 2 changed files with 1 addition and 3 deletions.
diff --git a/swift/llm/model/model/deepseek.py b/swift/llm/model/model/deepseek.py
@@ -216,7 +216,6 @@ def get_model_tokenizer_deepseek_vl2(model_dir: str, *args, **kwargs):
     except ImportError:
         # compat transformers>=4.42
         import transformers
-        transformers.models.llama.modeling_llama.LlamaAttention = None
         transformers.models.llama.modeling_llama.LlamaFlashAttention2 = None
         from deepseek_vl2.models import DeepseekVLV2Processor
     processor: DeepseekVLV2Processor = DeepseekVLV2Processor.from_pretrained(model_dir)

diff --git a/swift/llm/template/template/deepseek.py b/swift/llm/template/template/deepseek.py
@@ -185,9 +185,8 @@ def generate(self, model, *args, **kwargs):
             return {'sequences': generated_tokens}
 
     def decode(self, generate_ids: List[int], is_finished: bool = True, tokenizer_kwargs=None, **kwargs) -> Any:
-        if not kwargs['template_inputs'].generate_mode:
+        if 'template_inputs' not in kwargs or not kwargs['template_inputs'].generate_mode:
             return super().decode(generate_ids, is_finished, tokenizer_kwargs, **kwargs)
-
         else:
             img_size = get_env_args('img_size', int, 384)
             patch_size = 16