Fix LinearInt8 recursive quantization (#791)

malfet · malfet · commit cc09cec89a3a · 2024-07-16T23:03:15.000-07:00
Test plan: ``` % python3 torchchat.py generate llama2 --dtype float16 --quantize '{"linear:int8": {"groupsize": 0}}' --prompt "Once upon a time," --device mps Using device=mps Loading model... Time to load model: 29.03 seconds Quantizing the model with: {'linear:int8': {'groupsize': 0}} Time to quantize model: 14.37 seconds ``` Fixes #788
diff --git a/quantize.py b/quantize.py
@@ -410,8 +410,8 @@ def quantize(self, module):
                             groupsize=self.groupsize,
                         ),
                     )
-                else:
-                    self.quantize(child)
+            else:
+                self.quantize(child)
 
         return module
 

Original file line number	Diff line number	Diff line change
`@@ -410,8 +410,8 @@ def quantize(self, module):`
`410`	`410`	`groupsize=self.groupsize,`
`411`	`411`	`),`
`412`	`412`	`)`
`413`		`- else:`
`414`		`- self.quantize(child)`
	`413`	`+ else:`
	`414`	`+ self.quantize(child)`
`415`	`415`
`416`	`416`	`return module`
`417`	`417`