revert is_marlin_format check (#1316)

CSY-ModelCloud · web-flow · commit 629e7ca2c40a · 2025-02-21T18:02:41.000+08:00
diff --git a/gptqmodel/quantization/config.py b/gptqmodel/quantization/config.py
@@ -33,6 +33,7 @@
 
 FORMAT_FIELD_CODE = "format"
 FORMAT_FIELD_JSON = "checkpoint_format"
+FORMAT_FIELD_COMPAT_MARLIN = "is_marlin_format"
 QUANT_METHOD_FIELD = "quant_method"
 PACK_DTYPE_FIELD = "pack_dtype"
 QUANT_CONFIG_FILENAME = "quantize_config.json"
@@ -184,6 +185,8 @@ class QuantizeConfig():
     # pending used field
     adapter: Optional[Union[Dict[str, Any], Lora]] = field(default=None)
 
+    is_marlin_format: bool = False
+
     def __post_init__(self):
         fields_info = fields(self)
 
@@ -351,6 +354,8 @@ def from_quant_config(cls, quantize_cfg, format: str = None):
                     raise ValueError(f"QuantizeConfig: Unknown quantization method: `{val}`.")
                 else:
                     normalized[QUANT_METHOD_FIELD] = val
+            elif key == FORMAT_FIELD_COMPAT_MARLIN and val:
+                normalized[FORMAT_FIELD_CODE] = FORMAT.MARLIN
             elif key in field_names:
                 normalized[key] = val
             else:
diff --git a/tests/test_quant_formats.py b/tests/test_quant_formats.py
@@ -49,9 +49,9 @@ def setUpClass(self):
 
     @parameterized.expand(
         [
-            # (QUANT_METHOD.GPTQ, BACKEND.AUTO, False, FORMAT.GPTQ, 8),
+            (QUANT_METHOD.GPTQ, BACKEND.AUTO, False, FORMAT.GPTQ, 8),
             (QUANT_METHOD.GPTQ, BACKEND.EXLLAMA_V2, True, FORMAT.GPTQ_V2, 4),
-            # (QUANT_METHOD.GPTQ, BACKEND.EXLLAMA_V2, False, FORMAT.GPTQ, 4),
+            (QUANT_METHOD.GPTQ, BACKEND.EXLLAMA_V2, False, FORMAT.GPTQ, 4),
         ]
     )
     def test_quantize(self, method: QUANT_METHOD, backend: BACKEND, sym: bool, format: FORMAT, bits: int):
@@ -115,12 +115,13 @@ def test_quantize(self, method: QUANT_METHOD, backend: BACKEND, sym: bool, forma
             if not sym and format == FORMAT.GPTQ or format == FORMAT.IPEX:
                 return
 
-            # test compat: 1) with simple dict type
+            # test compat: 1) with simple dict type 2) is_marlin_format
             compat_quantize_config = {
                 "bits": bits,
                 "group_size": 128,
                 "sym": sym,
                 "desc_act": False if format == FORMAT.MARLIN else True,
+                "is_marlin_format": backend == BACKEND.MARLIN,
             }
 
             model = GPTQModel.load(

Original file line number	Diff line number	Diff line change
`@@ -49,9 +49,9 @@ def setUpClass(self):`
`49`	`49`
`50`	`50`	`@parameterized.expand(`
`51`	`51`	`[`
`52`		`- # (QUANT_METHOD.GPTQ, BACKEND.AUTO, False, FORMAT.GPTQ, 8),`
	`52`	`+ (QUANT_METHOD.GPTQ, BACKEND.AUTO, False, FORMAT.GPTQ, 8),`
`53`	`53`	`(QUANT_METHOD.GPTQ, BACKEND.EXLLAMA_V2, True, FORMAT.GPTQ_V2, 4),`
`54`		`- # (QUANT_METHOD.GPTQ, BACKEND.EXLLAMA_V2, False, FORMAT.GPTQ, 4),`
	`54`	`+ (QUANT_METHOD.GPTQ, BACKEND.EXLLAMA_V2, False, FORMAT.GPTQ, 4),`
`55`	`55`	`]`
`56`	`56`	`)`
`57`	`57`	`def test_quantize(self, method: QUANT_METHOD, backend: BACKEND, sym: bool, format: FORMAT, bits: int):`
`@@ -115,12 +115,13 @@ def test_quantize(self, method: QUANT_METHOD, backend: BACKEND, sym: bool, forma`
`115`	`115`	`if not sym and format == FORMAT.GPTQ or format == FORMAT.IPEX:`
`116`	`116`	`return`
`117`	`117`
`118`		`- # test compat: 1) with simple dict type`
	`118`	`+ # test compat: 1) with simple dict type 2) is_marlin_format`
`119`	`119`	`compat_quantize_config = {`
`120`	`120`	`"bits": bits,`
`121`	`121`	`"group_size": 128,`
`122`	`122`	`"sym": sym,`
`123`	`123`	`"desc_act": False if format == FORMAT.MARLIN else True,`
	`124`	`+ "is_marlin_format": backend == BACKEND.MARLIN,`
`124`	`125`	`}`
`125`	`126`
`126`	`127`	`model = GPTQModel.load(`