Bitblas cache (#129)

Qubitium · web-flow · commit 692806483bfb · 2024-07-01T00:27:32.000+08:00
* cleanup

* revert bad commit

* key bitblas cache to both bitblas and gptqmodel version
diff --git a/gptqmodel/nn_modules/qlinear/qlinear_bitblas.py b/gptqmodel/nn_modules/qlinear/qlinear_bitblas.py
@@ -46,7 +46,13 @@ def import_bitblas():
 
     if BITBLAS_DATABASE_PATH is None:
         from bitblas.cache import get_database_path
-        BITBLAS_DATABASE_PATH = get_database_path()
+        from importlib.metadata import version
+
+        bitblas_version = version(distribution_name="bitblas")
+        gptqmodel_version = version(distribution_name="gptqmodel")
+
+        # for stability, tvm compiled caches are stored keyed by bot bitblas and gptqmodel version
+        BITBLAS_DATABASE_PATH = f"{get_database_path()}_v{bitblas_version}_gptqmodel_v{gptqmodel_version}"
 
 
 def unpack_qzeros(qzeros, bits):
diff --git a/requirements.txt b/requirements.txt
@@ -13,3 +13,4 @@ threadpoolctl>=3.5.0
 packaging>=24.1
 ninja>=1.11.1.1
 bitblas>=0.0.1.dev12
+importlib>=1.0.4
diff --git a/tests/test_q4_bitblas.py b/tests/test_q4_bitblas.py
@@ -7,7 +7,7 @@
 import unittest  # noqa: E402
 
 import torch  # noqa: E402
-from gptqmodel.nn_modules.qlinear.qlinear_bitblas import QuantLinear as BitBLASQuantLinear  # noqa: E402
+from gptqmodel.nn_modules.qlinear.qlinear_bitblas import BitBLASQuantLinear  # noqa: E402
 
 try:
     from gptqmodel_exllama_kernels import prepare_buffers, set_tuning_params  # noqa: F401