ModelCloud
diff --git a/‎eora_load_and_infer.py‎
Lines changed: 56 additions & 0 deletions b/‎eora_load_and_infer.py‎
Lines changed: 56 additions & 0 deletions
diff --git a/‎eora_no_bug.py‎
Lines changed: 51 additions & 0 deletions b/‎eora_no_bug.py‎
Lines changed: 51 additions & 0 deletions
diff --git a/‎gptqmodel/adapter/adapter.py‎
Lines changed: 1 addition & 1 deletion b/‎gptqmodel/adapter/adapter.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎gptqmodel/eora/__init__.py‎
Lines changed: 3 additions & 0 deletions b/‎gptqmodel/eora/__init__.py‎
Lines changed: 3 additions & 0 deletions
diff --git a/‎gptqmodel/eora/eora_calibration_dataloader.py‎
Lines changed: 179 additions & 0 deletions b/‎gptqmodel/eora/eora_calibration_dataloader.py‎
Lines changed: 179 additions & 0 deletions
diff --git a/‎gptqmodel/eora/modelutils.py‎
Lines changed: 45 additions & 0 deletions b/‎gptqmodel/eora/modelutils.py‎
Lines changed: 45 additions & 0 deletions
diff --git a/‎gptqmodel/models/loader.py‎
Lines changed: 1 addition & 0 deletions b/‎gptqmodel/models/loader.py‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎gptqmodel/nn_modules/qlinear/exllama_eora.py‎
Lines changed: 4 additions & 4 deletions b/‎gptqmodel/nn_modules/qlinear/exllama_eora.py‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎gptqmodel/quantization/config.py‎
Lines changed: 0 additions & 2 deletions b/‎gptqmodel/quantization/config.py‎
Lines changed: 0 additions & 2 deletions
@@ -0,0 +1,56 @@
+import os
+
+from gptqmodel import BACKEND, GPTQModel
+from gptqmodel.adapter.adapter import Lora
+from parameterized import parameterized
+
+
+@parameterized.expand([
+    (BACKEND.TORCH),
+    (BACKEND.CUDA),
+    (BACKEND.TRITON),
+    (BACKEND.EXLLAMA_V1),
+    # (BACKEND.EXLLAMA_V2), <-- adapter not working yet
+    (BACKEND.MARLIN),
+    # (BACKEND.IPEX), <-- not tested yet
+    # (BACKEND.BITBLAS, <-- not tested yet
+])
+def test_load(backend: BACKEND):
+    os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID"    
+    quant_model_path = "/home/shihyangl/gptqmodel_save/Llama-3.2-1B-gptqmodel-4bit"
+    lora_path = "/home/shihyangl/llama3.2-1b-4bit-group128-eora-rank128-arc/adapter_model.safetensors" #"sliuau/llama3.2-1b-4bit-group128-eora-rank128-arc/blob/main/adapter_model.safetensors" #"sliuau/llama3.2-1b-4bit-group128-eora-rank128-arc"
+
+    adapter = Lora(path=lora_path, rank=128)
+
+    model = GPTQModel.load(
+        quant_model_path,
+        adapter=adapter,
+        backend=backend,
+        device_map="auto",
+    )
+
+    # print(model)
+    tokens = model.generate("Capital of France is")[0]
+    result = model.tokenizer.decode(tokens)
+    print(f"Result: {result}")
+    assert "paris" in result.lower()
+
+
+# os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID"    
+# quant_model_path = "/home/shihyangl/gptqmodel_save/Llama-3.2-1B-gptqmodel-4bit"
+# lora_path = "/home/shihyangl/llama3.2-1b-4bit-group128-eora-rank128-arc/adapter_model.safetensors" #"sliuau/llama3.2-1b-4bit-group128-eora-rank128-arc/blob/main/adapter_model.safetensors" #"sliuau/llama3.2-1b-4bit-group128-eora-rank128-arc"
+
+# adapter = EoRA(lora_path=lora_path, rank=128)
+
+# model = GPTQModel.load(
+#     quant_model_path,
+#     adapter=adapter,
+#     backend=BACKEND.TORCH,
+#     device_map="auto",
+# )
+
+# # print(model)
+# tokens = model.generate("Capital of France is")[0]
+# result = model.tokenizer.decode(tokens)
+# print(f"Result: {result}")
+# assert "paris" in result.lower()
@@ -0,0 +1,51 @@
+import torch
+from datasets import load_dataset
+from gptqmodel import GPTQModel, QuantizeConfig
+
+# from gptqmodel.eora import get_eora, get_eora_optimize
+
+
+bit = 4
+model_id = "meta-llama/Llama-3.2-1B"
+model = None
+
+quant_path = "Llama-3.2-1B-gptqmodel-4bit"
+fake_quant_path = "Llama-3.2-1B-gptqmodel-4bit-fakequantized/qw.pt"
+eora_path = "Llama-3.2-1B-gptqmodel-4bit-eora-rank-128-v2/eora.pt"
+quant_config = QuantizeConfig(bits=bit, group_size=128)
+
+
+calibration_dataset = load_dataset(
+    "allenai/c4",
+    data_files="en/c4-train.00001-of-01024.json.gz",
+    split="train"
+).select(range(1024))["text"]
+
+print(f"{type(calibration_dataset)}")
+
+### 3-bit group_size = 128 leads to out: IndexError: index 192 is out of bounds when packing
+model = GPTQModel.load(model_id, quant_config)
+
+# increase `batch_size` to match gpu/vram specs to speed up quantization
+quant_log, quantized_weights = model.quantize(calibration_dataset, batch_size=2)
+
+model.save(quant_path)
+
+torch.save(quantized_weights, fake_quant_path)
+quantized_weights = torch.load(fake_quant_path, map_location='cpu')
+
+## 4-bit gs=128 Acc: 0.2850
+
+batch_size = 2
+from test_prepare_dataset import construct_ARC
+
+calibration_dataset = construct_ARC(nsamples=1024)
+eora_rank = 128
+model = GPTQModel.load(model_id, quant_config)
+
+eora_weight = model.get_eora(calibration_dataset, batch_size, quantized_weights, eora_rank)
+
+torch.save(eora_weight, eora_path)
+
+eora_weight = torch.load(eora_path,  map_location='cpu')
+print(eora_weight)
@@ -171,9 +171,9 @@ def post_init(self, weight_key: str, device:torch.device, lora_A: torch.Tensor=N
                 pop_keys.append(k)
             elif k.endswith(lora_B_weight_key):
                 lora_B = v.T
+                lora_B = torch.clone(v.T, memory_format=torch.contiguous_format)
                 pop_keys.append(k)
 
-
         if pop_keys:
             for k in pop_keys:
                 lora_weights.pop(k) # releasee lora weights from cache memory
 
@@ -0,0 +1,3 @@
+from .eora import *
+from .eora_calibration_dataloader import *
+from .modelutils import *
@@ -0,0 +1,179 @@
+# Copyright (c) 2025, NVIDIA CORPORATION.  All rights reserved.
+#
+# NVIDIA CORPORATION and its licensors retain all intellectual property
+# and proprietary rights in and to this software, related documentation
+# and any modifications thereto.  Any use, reproduction, disclosure or
+# distribution of this software and related documentation without an express
+# license agreement from NVIDIA CORPORATION is strictly prohibited.
+
+import re
+from typing import Dict, Optional, Sequence
+
+## This is the oldway of constructing the calibration dataset
+import numpy as np
+import torch
+import transformers
+
+
+def set_seed(seed):
+    np.random.seed(seed)
+    torch.random.manual_seed(seed)
+def get_mathqa_c4(nsamples, seed, seqlen, model):
+    from datasets import load_dataset
+    traindata_mathqa = load_dataset('math_qa', split='train')
+    from transformers import AutoTokenizer 
+    tokenizer = AutoTokenizer.from_pretrained(model, use_fast=False, seqlen=2048)
+
+    import random
+    random.seed(seed)
+    trainloader = []
+    mathqa_namsples = int(20)
+    print(f"mathqa_namsples {mathqa_namsples}")
+    i = 0
+    for _ in range(mathqa_namsples):
+
+        cur_len = 0
+        input = ""
+        while cur_len < seqlen:
+            doc = traindata_mathqa[i]
+            cur_input = "Question: " + doc["Problem"] + " Choices: " + doc["options"] + ". Rationale: " + doc["Rationale"] + ". "
+            input = input + cur_input
+            trainenc = tokenizer(input, return_tensors='pt')
+            cur_len = (trainenc.input_ids.shape[1]) ## neglect the bos token
+            i += 1
+
+        ## reach seq_len
+        final_inp = tokenizer(input, return_tensors='pt')
+        inp = final_inp.input_ids[:, :seqlen]
+        tar = inp.clone()
+        tar[:, :-1] = -100
+        trainloader.append((inp, tar))
+
+    traindata = load_dataset('allenai/c4', data_files={'train': 'en/c4-train.00000-of-01024.json.gz'}, split='train')
+    c4_nsamples = nsamples - mathqa_namsples
+    for _ in range(c4_nsamples):
+        while True:
+            i = random.randint(0, len(traindata) - 1)
+            trainenc = tokenizer(traindata[i]['text'], return_tensors='pt')
+            if trainenc.input_ids.shape[1] > seqlen:
+                break
+        i = random.randint(0, trainenc.input_ids.shape[1] - seqlen - 1)
+        j = i + seqlen
+        inp = trainenc.input_ids[:, i:j]
+        tar = inp.clone()
+        tar[:, :-1] = -100
+        trainloader.append((inp, tar))
+
+    return trainloader
+
+def get_arc_c4(nsamples, seed, seqlen, model):
+    from datasets import load_dataset
+    traindata_arc_easy = load_dataset('ai2_arc', 'ARC-Easy', split='train')
+    traindata_arc_challenge = load_dataset('ai2_arc', 'ARC-Challenge', split='train')
+    from transformers import AutoTokenizer 
+    tokenizer = AutoTokenizer.from_pretrained(model, use_fast=False, seqlen=2048)
+
+
+    import random
+    random.seed(seed)
+    trainloader = []
+    arc_e_namsples = int(20)
+    print(f"arc_e_namsples {arc_e_namsples}")
+    i = 0
+    for _ in range(arc_e_namsples):
+        
+        cur_len = 0
+        input = ""
+        while cur_len < seqlen:
+            answer = traindata_arc_easy[i]['choices']['label'].index(traindata_arc_easy[i]['answerKey'])
+            cur_input = traindata_arc_easy[i]['question'] +" "+ traindata_arc_easy[i]['choices']['text'][answer] + ". "
+            input = input + cur_input
+            trainenc = tokenizer(input, return_tensors='pt')
+            cur_len = (trainenc.input_ids.shape[1]) ## neglect the bos token
+            i += 1
+        
+        final_inp = tokenizer(input, return_tensors='pt')
+        inp = final_inp.input_ids[:, :seqlen]
+        tar = inp.clone()
+        tar[:, :-1] = -100
+        trainloader.append((inp, tar))
+
+
+    arc_c_namsples = int(10)
+    print(f"arc_c_namsples {arc_c_namsples}")
+    i = 0
+    for _ in range(arc_c_namsples):
+        
+        cur_len = 0
+        input = ""
+        while cur_len < seqlen:
+            answer = traindata_arc_challenge[i]['choices']['label'].index(traindata_arc_challenge[i]['answerKey'])
+            cur_input = traindata_arc_challenge[i]['question'] +" "+ traindata_arc_challenge[i]['choices']['text'][answer] + ". "
+            input = input + cur_input
+            trainenc = tokenizer(input, return_tensors='pt')
+            cur_len = (trainenc.input_ids.shape[1]) ## neglect the bos token
+            i += 1
+
+        ## reach seq_len
+        final_inp = tokenizer(input, return_tensors='pt')
+        inp = final_inp.input_ids[:, :seqlen]
+        tar = inp.clone()
+        tar[:, :-1] = -100
+        trainloader.append((inp, tar))
+
+
+    # traindata = load_dataset("json", data_files=f"{c4_data}/c4-train.json")['train']
+    traindata = load_dataset('allenai/c4', data_files={'train': 'en/c4-train.00000-of-01024.json.gz'}, split='train')
+    c4_nsamples = nsamples - arc_c_namsples - arc_e_namsples
+    for _ in range(c4_nsamples):
+        while True:
+            i = random.randint(0, len(traindata) - 1)
+            # print(len(traindata[i]['text']))
+            trainenc = tokenizer(traindata[i]['text'], return_tensors='pt')
+            if trainenc.input_ids.shape[1] > seqlen:
+                break
+        i = random.randint(0, trainenc.input_ids.shape[1] - seqlen - 1)
+        j = i + seqlen
+        inp = trainenc.input_ids[:, i:j]
+        tar = inp.clone()
+        tar[:, :-1] = -100
+        # print(f"inp {inp.shape}")
+        trainloader.append((inp, tar))
+
+    return trainloader
+
+def get_wikitext2(nsamples, seed, seqlen, model):
+    from datasets import load_dataset
+    traindata = load_dataset('wikitext', 'wikitext-2-raw-v1', split='train')
+
+    from transformers import AutoTokenizer 
+    tokenizer = AutoTokenizer.from_pretrained(model, use_fast=False)
+    trainenc = tokenizer("\n\n".join(traindata['text']), return_tensors='pt')
+
+    import random
+    random.seed(seed)
+    trainloader = []
+    for _ in range(nsamples):
+        i = random.randint(0, trainenc.input_ids.shape[1] - seqlen - 1)
+        j = i + seqlen
+        inp = trainenc.input_ids[:, i:j]
+        tar = inp.clone()
+        tar[:, :-1] = -100
+        trainloader.append((inp, tar))
+    return trainloader
+
+def get_loaders(
+    data_name, nsamples=128, seed=0, seqlen=2048, model=''
+):
+    if type(data_name) == list:
+        raise NotImplementedError
+    else:
+        if 'wikitext2' in data_name:
+            return get_wikitext2(nsamples, seed, seqlen, model)
+        if "mathqa" in data_name:
+            return get_mathqa_c4(nsamples, seed, seqlen, model)
+        if "arc" in data_name:
+            return get_arc_c4(nsamples, seed, seqlen, model)
+
+    
+    
@@ -0,0 +1,45 @@
+import functools
+
+import torch
+import torch.nn as nn
+
+
+def recurse_getattr(obj, attr: str):
+    """
+    Recursive `getattr`.
+
+    Args:
+        obj:
+            A class instance holding the attribute.
+        attr (`str`):
+            The attribute that is to be retrieved, e.g. 'attribute1.attribute2'.
+    """
+
+    def _getattr(obj, attr):
+        return getattr(obj, attr)
+
+    return functools.reduce(_getattr, [obj] + attr.split("."))
+
+
+def recurse_setattr(module, name, value):
+    """A function to recursively set attributes to a module."""
+    if "." not in name:
+        setattr(module, name, value)
+    else:
+        name, rest = name.split(".", 1)
+        recurse_setattr(getattr(module, name), rest, value)
+
+        
+
+def find_layers(module, layers=[nn.Conv2d, nn.Linear], name=''):
+    if type(module) in layers:
+        return {name: module}
+    res = {}
+    for name1, child in module.named_children():
+        res.update(find_layers(
+            child, layers=layers, name=name + '.' + name1 if name != '' else name1
+        ))
+    return res
+
+
+
@@ -323,6 +323,7 @@ def from_quantized(
                 model, hf_config = load_model_by_sglang(
                     model=model_local_path,
                     trust_remote_code=trust_remote_code,
+                    dtype=torch.float16,
                     **kwargs,
                 )
                 model.config = hf_config
 
@@ -54,7 +54,7 @@ def gptq_shuffle(q_weight: torch.Tensor, q_perm: torch.Tensor,
 
 
 class ExllamaEoraQuantLinear(BaseQuantLinear):
-    SUPPORTS_BITS = [4, 8] # TODO: validate 2/3
+    SUPPORTS_BITS = [4, 8]
     SUPPORTS_GROUP_SIZE = [-1, 16, 32, 64, 128]
     SUPPORTS_DESC_ACT = [True, False]
     SUPPORTS_SYM = [True] # TODO: validate False
@@ -157,7 +157,7 @@ def forward(self, x):
         x_dtype = x.dtype
         if x_dtype != torch.float16:
             logger.warning_once(
-                f"Exllama v2 kernel requires a float16 input activation, while {x.dtype} was passed. Casting to float16.\nMake sure you loaded your model with torch_dtype=torch.float16, that the model definition does not inadvertently cast to float32, or disable AMP Autocast that may produce float32 intermediate activations in the model."
+                f"Exllama EoRA kernel requires a float16 input activation, while {x.dtype} was passed. Casting to float16.\nMake sure you loaded your model with torch_dtype=torch.float16, that the model definition does not inadvertently cast to float32, or disable AMP Autocast that may produce float32 intermediate activations in the model."
             )
 
             x = x.to(dtype=torch.float16)
@@ -172,8 +172,8 @@ def forward(self, x):
         #     x = F.pad(x, self.in_features_padding_shape)
 
         if self.adapter:
-            # output = gptq_gemm_lora(x, self.qweight, self.qzeros, self.scales, self.g_idx, self.bits, x @ self.adapter.lora_A, self.adapter.lora_B) # fused
-            output = gptq_gemm(reshaped_x, self.qweight, self.qzeros, self.scales, self.g_idx, self.bits).add_((reshaped_x @ self.adapter.lora_A) @ self.adapter.lora_B) # normal
+            output = gptq_gemm_lora(x, self.qweight, self.qzeros, self.scales, self.g_idx, self.bits, x @ self.adapter.lora_A, self.adapter.lora_B) # fused
+            # output = gptq_gemm(reshaped_x, self.qweight, self.qzeros, self.scales, self.g_idx, self.bits).add_((reshaped_x @ self.adapter.lora_A) @ self.adapter.lora_B) # normal
         else:
             output = gptq_gemm(reshaped_x, self.qweight, self.qzeros, self.scales, self.g_idx, self.bits)
 
 
@@ -383,8 +383,6 @@ def from_quant_config(cls, quantize_cfg, format: str = None):
                     raise ValueError(f"QuantizeConfig: Unknown quantization method: `{val}`.")
                 else:
                     normalized[QUANT_METHOD_FIELD] = val
-            elif key == FORMAT_FIELD_COMPAT_MARLIN and val:
-                normalized[FORMAT_FIELD_CODE] = FORMAT.MARLIN
             elif key in field_names:
                 normalized[key] = val
             else:
Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,3 @@`
	`1`	`+from .eora import *`
	`2`	`+from .eora_calibration_dataloader import *`
	`3`	`+from .modelutils import *`
Original file line number	Diff line number	Diff line change
`@@ -323,6 +323,7 @@ def from_quantized(`
`323`	`323`	`model, hf_config = load_model_by_sglang(`
`324`	`324`	`model=model_local_path,`
`325`	`325`	`trust_remote_code=trust_remote_code,`
	`326`	`+ dtype=torch.float16,`
`326`	`327`	`**kwargs,`
`327`	`328`	`)`
`328`	`329`	`model.config = hf_config`