Fixed embd when offloading non-repeating layers

JohannesGaessler · JohannesGaessler · commit 1170a957324e · 2023-06-16T15:44:39.000+02:00
diff --git a/llama.cpp b/llama.cpp
@@ -1654,7 +1654,7 @@ static bool llama_eval_internal(
 
         // cur = cur*norm(broadcasted)
         cur = ggml_mul(ctx0, cur, model.norm);
-        offload_func_nr(cur);
+        // offload_func_nr(cur); // TODO CPU + GPU mirrored backend
         ggml_set_name(cur, "result_norm");
 
         embeddings = cur;