refactor the finetune main __call__

vbaddi · quic-meetkuma · commit 2549a617a9ff · 2025-04-17T16:24:43.000+05:30
Signed-off-by: vbaddi &lt;quic_vbaddi@quicinc.com&gt;
diff --git a/QEfficient/cloud/finetune.py b/QEfficient/cloud/finetune.py
diff --git a/QEfficient/finetune/configs/peft_config.py b/QEfficient/finetune/configs/peft_config.py
@@ -9,15 +9,24 @@
 from typing import List
 
 
-# Currently, the support is for Lora Configs only
-# In future, we can expand to llama_adapters and prefix tuning
-# TODO: vbaddi: Check back once FSDP is enabled
 @dataclass
-class lora_config:
+class LoraConfig:
+    """LoRA-specific configuration for parameter-efficient fine-tuning.
+
+    Attributes:
+        r (int): LoRA rank (default: 8).
+        lora_alpha (int): LoRA scaling factor (default: 32).
+        target_modules (List[str]): Modules to apply LoRA to (default: ["q_proj", "v_proj"]).
+        bias (str): Bias handling in LoRA (default: "none").
+        task_type (str): Task type for LoRA (default: "CAUSAL_LM").
+        lora_dropout (float): Dropout rate for LoRA (default: 0.0).
+        inference_mode (bool): Whether model is in inference mode (default: False).
+    """
+
     r: int = 8
     lora_alpha: int = 32
     target_modules: List[str] = field(default_factory=lambda: ["q_proj", "v_proj"])
-    bias = "none"
+    bias: str = "none"
     task_type: str = "CAUSAL_LM"
     lora_dropout: float = 0.05
     inference_mode: bool = False  # should be False for finetuning
diff --git a/QEfficient/finetune/configs/training.py b/QEfficient/finetune/configs/training.py
@@ -7,8 +7,52 @@
 from dataclasses import dataclass
 
 
+# Configuration Classes
 @dataclass
-class train_config:
+class TrainConfig:
+    """Training configuration for model fine-tuning.
+
+    Attributes:
+        model_name (str): Name of the pre-trained model to fine-tune (default: "meta-llama/Llama-3.2-1B").
+        tokenizer_name (str): Name of the tokenizer (defaults to model_name if None).
+        run_validation (bool): Whether to run validation during training (default: True).
+        batch_size_training (int): Batch size for training (default: 1).
+        context_length (Optional[int]): Maximum sequence length for inputs (default: None).
+        gradient_accumulation_steps (int): Steps for gradient accumulation (default: 4).
+        num_epochs (int): Number of training epochs (default: 1).
+        max_train_step (int): Maximum training steps (default: 0, unlimited if 0).
+        max_eval_step (int): Maximum evaluation steps (default: 0, unlimited if 0).
+        device (str): Device to train on (default: "qaic").
+        num_workers_dataloader (int): Number of workers for data loading (default: 1).
+        lr (float): Learning rate (default: 3e-4).
+        weight_decay (float): Weight decay for optimizer (default: 0.0).
+        gamma (float): Learning rate decay factor (default: 0.85).
+        seed (int): Random seed for reproducibility (default: 42).
+        use_fp16 (bool): Use mixed precision training (default: True).
+        use_autocast (bool): Use autocast for mixed precision (default: True).
+        val_batch_size (int): Batch size for validation (default: 1).
+        dataset (str): Dataset name for training (default: "samsum_dataset").
+        peft_method (str): Parameter-efficient fine-tuning method (default: "lora").
+        use_peft (bool): Whether to use PEFT (default: True).
+        from_peft_checkpoint (str): Path to PEFT checkpoint (default: "").
+        output_dir (str): Directory to save outputs (default: "meta-llama-samsum").
+        num_freeze_layers (int): Number of layers to freeze (default: 1).
+        one_qaic (bool): Use single QAIC device (default: False).
+        save_model (bool): Save the trained model (default: True).
+        save_metrics (bool): Save training metrics (default: True).
+        intermediate_step_save (int): Steps between intermediate saves (default: 1000).
+        batching_strategy (str): Batching strategy (default: "packing").
+        enable_sorting_for_ddp (bool): Sort data for DDP (default: True).
+        convergence_counter (int): Steps to check convergence (default: 5).
+        convergence_loss (float): Loss threshold for convergence (default: 1e-4).
+        use_profiler (bool): Enable profiling (default: False).
+        enable_ddp (bool): Enable distributed data parallel (default: False).
+        dist_backend (str): Backend for distributed training (default: "cpu:gloo,qaic:qccl,cuda:gloo").
+        grad_scaler (bool): Use gradient scaler (default: True).
+        dump_root_dir (str): Directory for mismatch dumps (default: "meta-llama-samsum-mismatches/step_").
+        opByOpVerifier (bool): Enable operation-by-operation verification (default: False).
+    """
+
     model_name: str = "meta-llama/Llama-3.2-1B"
     tokenizer_name: str = None  # if not passed as an argument, it uses the value of model_name
     run_validation: bool = True
diff --git a/QEfficient/finetune/eval.py b/QEfficient/finetune/eval.py
@@ -11,7 +11,6 @@
 import fire
 import numpy as np
 import torch
-from configs.training import train_config as TRAIN_CONFIG
 from peft import AutoPeftModelForCausalLM
 from transformers import AutoModelForCausalLM, AutoTokenizer
 from utils.config_utils import (
@@ -25,6 +24,8 @@
 )
 from utils.train_utils import evaluation, print_model_size
 
+from QEfficient.finetune.configs.training import TrainConfig
+
 try:
     import torch_qaic  # noqa: F401
 
@@ -39,7 +40,7 @@
 
 def main(**kwargs):
     # update the configuration for the training process
-    train_config = TRAIN_CONFIG()
+    train_config = TrainConfig()
     update_config(train_config, **kwargs)
 
     # Set the seeds for reproducibility
diff --git a/QEfficient/finetune/utils/config_utils.py b/QEfficient/finetune/utils/config_utils.py
@@ -4,28 +4,40 @@
 # SPDX-License-Identifier: BSD-3-Clause
 #
 # -----------------------------------------------------------------------------
-
 import inspect
+import json
+import os
 from dataclasses import asdict
+from typing import Any, Dict
 
 import torch.distributed as dist
 import torch.utils.data as data_utils
+import yaml
 from peft import (
     AdaptionPromptConfig,
-    LoraConfig,
     PrefixTuningConfig,
 )
+from peft import LoraConfig as PeftLoraConfig
 from transformers import default_data_collator
 from transformers.data import DataCollatorForSeq2Seq
 
 import QEfficient.finetune.configs.dataset_config as datasets
-from QEfficient.finetune.configs.peft_config import lora_config, prefix_config
-from QEfficient.finetune.configs.training import train_config
+from QEfficient.finetune.configs.peft_config import LoraConfig
+from QEfficient.finetune.configs.training import TrainConfig
 from QEfficient.finetune.data.sampler import DistributedLengthBasedBatchSampler
 from QEfficient.finetune.dataset.dataset_config import DATASET_PREPROC
 
 
 def update_config(config, **kwargs):
+    """Update the attributes of a config object based on provided keyword arguments.
+
+    Args:
+        config: The configuration object (e.g., TrainConfig, LoraConfig) or a list/tuple of such objects.
+        **kwargs: Keyword arguments representing attributes to update.
+
+    Raises:
+        ValueError: If an unknown parameter is provided and the config type doesn't support nested updates.
+    """
     if isinstance(config, (tuple, list)):
         for c in config:
             update_config(c, **kwargs)
@@ -34,40 +46,68 @@ def update_config(config, **kwargs):
             if hasattr(config, k):
                 setattr(config, k, v)
             elif "." in k:
-                # allow --some_config.some_param=True
-                config_name, param_name = k.split(".")
-                if type(config).__name__ == config_name:
+                config_name, param_name = k.split(".", 1)
+                if type(config).__name__.lower() == config_name.lower():
                     if hasattr(config, param_name):
                         setattr(config, param_name, v)
                     else:
-                        # In case of specialized config we can warn user
-                        assert False, f"Warning: {config_name} does not accept parameter: {k}"
-            elif isinstance(config, train_config):
-                assert False, f"Warning: unknown parameter {k}"
+                        raise ValueError(f"Config '{config_name}' does not have parameter: '{param_name}'")
+            else:
+                config_type = type(config).__name__
+                print(f"[WARNING]: Unknown parameter '{k}' for config type '{config_type}'")
 
 
-def generate_peft_config(train_config, kwargs):
-    configs = (lora_config, prefix_config)
-    peft_configs = (LoraConfig, AdaptionPromptConfig, PrefixTuningConfig)
-    names = tuple(c.__name__.rstrip("_config") for c in configs)
+def generate_peft_config(train_config: TrainConfig, custom_config: Any) -> Any:
+    """Generate a PEFT-compatible configuration from a custom config based on peft_method.
 
-    if train_config.peft_method not in names:
-        raise RuntimeError(f"Peft config not found: {train_config.peft_method}")
+    Args:
+        train_config (TrainConfig): Training configuration with peft_method.
+        custom_config: Custom configuration object (e.g., LoraConfig).
 
-    config = configs[names.index(train_config.peft_method)]()
+    Returns:
+        Any: A PEFT-specific configuration object (e.g., PeftLoraConfig).
 
-    update_config(config, **kwargs)
+    Raises:
+        RuntimeError: If the peft_method is not supported.
+    """
+    # Define supported PEFT methods and their corresponding configs
+    method_to_configs = {
+        "lora": (LoraConfig, PeftLoraConfig),
+        "adaption_prompt": (None, AdaptionPromptConfig),  # Placeholder; add custom config if needed
+        "prefix_tuning": (None, PrefixTuningConfig),  # Placeholder; add custom config if needed
+    }
+
+    peft_method = train_config.peft_method.lower()
+    if peft_method not in method_to_configs:
+        raise RuntimeError(f"PEFT config not found for method: {train_config.peft_method}")
+
+    custom_config_class, peft_config_class = method_to_configs[peft_method]
+
+    # Use the provided custom_config (e.g., LoraConfig instance)
+    config = custom_config
     params = asdict(config)
-    peft_config = peft_configs[names.index(train_config.peft_method)](**params)
 
+    # Create the PEFT-compatible config
+    peft_config = peft_config_class(**params)
     return peft_config
 
 
-def generate_dataset_config(train_config, kwargs):
+def generate_dataset_config(train_config: TrainConfig, kwargs: Dict[str, Any] = None) -> Any:
+    """Generate a dataset configuration based on the specified dataset in train_config.
+
+    Args:
+        train_config (TrainConfig): Training configuration with dataset name.
+        kwargs (Dict[str, Any], optional): Additional arguments (currently unused).
+
+    Returns:
+        Any: A dataset configuration object.
+
+    Raises:
+        AssertionError: If the dataset name is not recognized.
+    """
     names = tuple(DATASET_PREPROC.keys())
     assert train_config.dataset in names, f"Unknown dataset: {train_config.dataset}"
     dataset_config = {k: v for k, v in inspect.getmembers(datasets)}[train_config.dataset]()
-    update_config(dataset_config, **kwargs)
     return dataset_config
 
 
@@ -101,3 +141,84 @@ def get_dataloader_kwargs(train_config, dataset, dataset_processer, mode):
         kwargs["drop_last"] = True
         kwargs["collate_fn"] = default_data_collator
     return kwargs
+
+
+def validate_config(config_data: Dict[str, Any], config_type: str = "lora") -> None:
+    """Validate the provided YAML/JSON configuration for required fields and types.
+
+    Args:
+        config_data (Dict[str, Any]): The configuration dictionary loaded from YAML/JSON.
+        config_type (str): Type of config to validate ("lora" for LoraConfig, default: "lora").
+
+    Raises:
+        ValueError: If required fields are missing or have incorrect types.
+        FileNotFoundError: If the config file path is invalid (handled upstream).
+
+    Notes:
+        - Validates required fields for LoraConfig: r, lora_alpha, target_modules.
+        - Ensures types match expected values (int, float, list, etc.).
+    """
+    if config_type.lower() != "lora":
+        raise ValueError(f"Unsupported config_type: {config_type}. Only 'lora' is supported.")
+
+    required_fields = {
+        "r": int,
+        "lora_alpha": int,
+        "target_modules": list,
+    }
+    optional_fields = {
+        "bias": str,
+        "task_type": str,
+        "lora_dropout": float,
+        "inference_mode": bool,
+    }
+
+    # Check for missing required fields
+    missing_fields = [field for field in required_fields if field not in config_data]
+    if missing_fields:
+        raise ValueError(f"Missing required fields in {config_type} config: {missing_fields}")
+
+    # Validate types of required fields
+    for field, expected_type in required_fields.items():
+        if not isinstance(config_data[field], expected_type):
+            raise ValueError(
+                f"Field '{field}' in {config_type} config must be of type {expected_type.__name__}, "
+                f"got {type(config_data[field]).__name__}"
+            )
+
+    # Validate target_modules contains strings
+    if not all(isinstance(mod, str) for mod in config_data["target_modules"]):
+        raise ValueError("All elements in 'target_modules' must be strings")
+
+    # Validate types of optional fields if present
+    for field, expected_type in optional_fields.items():
+        if field in config_data and not isinstance(config_data[field], expected_type):
+            raise ValueError(
+                f"Field '{field}' in {config_type} config must be of type {expected_type.__name__}, "
+                f"got {type(config_data[field]).__name__}"
+            )
+
+
+def load_config_file(config_path: str) -> Dict[str, Any]:
+    """Load a configuration from a YAML or JSON file.
+
+    Args:
+        config_path (str): Path to the YAML or JSON file.
+
+    Returns:
+        Dict[str, Any]: The loaded configuration as a dictionary.
+
+    Raises:
+        FileNotFoundError: If the file does not exist.
+        ValueError: If the file format is unsupported.
+    """
+    if not os.path.exists(config_path):
+        raise FileNotFoundError(f"Config file not found: {config_path}")
+
+    with open(config_path, "r") as f:
+        if config_path.endswith(".yaml") or config_path.endswith(".yml"):
+            return yaml.safe_load(f)
+        elif config_path.endswith(".json"):
+            return json.load(f)
+        else:
+            raise ValueError("Unsupported config file format. Use .yaml, .yml, or .json")
diff --git a/QEfficient/finetune/utils/train_utils.py b/QEfficient/finetune/utils/train_utils.py
@@ -17,7 +17,7 @@
 from torch.utils.tensorboard import SummaryWriter
 from tqdm import tqdm
 
-from QEfficient.finetune.configs.training import train_config as TRAIN_CONFIG
+from QEfficient.finetune.configs.training import TrainConfig
 
 try:
     import torch_qaic  # noqa: F401
@@ -39,7 +39,7 @@ def train(
     optimizer,
     lr_scheduler,
     gradient_accumulation_steps,
-    train_config: TRAIN_CONFIG,
+    train_config: TrainConfig,
     device,
     local_rank=None,
     rank=None,
diff --git a/scripts/finetune/run_ft_model.py b/scripts/finetune/run_ft_model.py
@@ -12,7 +12,7 @@
 from peft import AutoPeftModelForCausalLM
 from transformers import AutoModelForCausalLM, AutoTokenizer
 
-from QEfficient.finetune.configs.training import train_config as TRAIN_CONFIG
+from QEfficient.finetune.configs.training import TrainConfig
 
 # Suppress all warnings
 warnings.filterwarnings("ignore")
@@ -25,7 +25,7 @@
     print(f"Warning: {e}. Moving ahead without these qaic modules.")
     device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
 
-train_config = TRAIN_CONFIG()
+train_config = TrainConfig()
 model = AutoModelForCausalLM.from_pretrained(
     train_config.model_name,
     use_cache=False,
diff --git a/tests/finetune/test_finetune.py b/tests/finetune/test_finetune.py
@@ -43,7 +43,7 @@ def test_finetune(
     device,
     mocker,
 ):
-    train_config_spy = mocker.spy(QEfficient.cloud.finetune, "TRAIN_CONFIG")
+    train_config_spy = mocker.spy(QEfficient.cloud.finetune, "TrainConfig")
     generate_dataset_config_spy = mocker.spy(QEfficient.cloud.finetune, "generate_dataset_config")
     generate_peft_config_spy = mocker.spy(QEfficient.cloud.finetune, "generate_peft_config")
     get_dataloader_kwargs_spy = mocker.spy(QEfficient.cloud.finetune, "get_dataloader_kwargs")