use vocab size from config.json

akawrykow · akawrykow · commit ad45bb37f46e · 2023-08-29T17:12:33.000-07:00
diff --git a/convert-falcon-hf-to-gguf.py b/convert-falcon-hf-to-gguf.py
@@ -148,7 +148,7 @@ def count_model_parts(dir_model: str) -> int:
 
     print("gguf: get gpt2 tokenizer vocab")
 
-    vocab_size = len(tokenizer_json["model"]["vocab"])
+    vocab_size = hparams["vocab_size"]
 
     # ref: https://github.com/cmp-nct/ggllm.cpp/blob/master/falcon_convert.py
     tokenizer = AutoTokenizer.from_pretrained(dir_model)