ModelCloud · Qubitium · Feb 18, 2025 · Feb 18, 2025 · Feb 18, 2025 · Feb 18, 2025
diff --git a/gptqmodel/models/writer.py b/gptqmodel/models/writer.py
@@ -29,7 +29,7 @@
 from huggingface_hub import split_torch_state_dict_into_shards
 from huggingface_hub.constants import SAFETENSORS_WEIGHTS_FILE_PATTERN
 from safetensors.torch import save_file as safe_save
-from transformers import AutoConfig, PreTrainedTokenizerFast
+from transformers import AutoConfig, PreTrainedTokenizerFast, GenerationConfig
 from transformers.modeling_utils import no_init_weights
 from transformers.models.auto.tokenization_auto import get_tokenizer_config
 from transformers.utils.generic import ContextManagers
@@ -309,6 +309,10 @@ def save_quantized(
 
         quantize_config.save_pretrained(save_dir)
 
+         # check for generation_config(.json)
+        if hasattr(self, "generation_config") and isinstance(self.generation_config, GenerationConfig):
+            self.generation_config.save_pretrained(save_dir)
+
         # need to copy .py files for model/tokenizers not yet merged to HF transformers
         if self.trust_remote_code:
             copy_py_files(save_dir, model_id_or_path=self.model_local_path)

diff --git a/requirements.txt b/requirements.txt
@@ -3,7 +3,7 @@ datasets>=3.2.0
 numpy>=2.2.2
 torch>=2.2.0
 safetensors>=0.5.2
-transformers>=4.48.3
+transformers>=4.49.0
 threadpoolctl>=3.5.0
 packaging>=24.2
 device-smi==0.3.3