Avoid mlock of offloaded tensors.

howard0su · howard0su · commit 67509db8df6f · 2023-05-27T21:54:30.000+08:00
diff --git a/llama.cpp b/llama.cpp
@@ -691,6 +691,7 @@ struct llama_model_loader {
     void load_all_data(llama_progress_callback progress_callback, void *  progress_callback_user_data, llama_mlock * lmlock) {
         size_t data_size = 0;
         size_t prefetch_size = 0;
+        size_t lock_size = 0;
         for (const llama_load_tensor & lt : tensors_map.tensors) {
             data_size += lt.size;
             if (lt.ggml_tensor->backend == GGML_BACKEND_CPU) {
@@ -716,6 +717,11 @@ struct llama_model_loader {
             switch(lt.ggml_tensor->backend) {
                 case GGML_BACKEND_CPU:
                     lt.ggml_tensor->data = lt.data;
+                    if (use_mmap && lmlock)
+                    {
+                        lock_size += lt.size;
+                        lmlock->grow_to(lock_size);
+                    }
                     break;
 #ifdef GGML_USE_CUBLAS
                 case GGML_BACKEND_CUDA:
@@ -731,9 +737,6 @@ struct llama_model_loader {
                     continue;
             }
             done_size += lt.size;
-            if (use_mmap && lmlock) {
-                lmlock->grow_to(done_size);
-            }
         }
     }