refactor llama_ngram_cache_update

JohannesGaessler · JohannesGaessler · commit fdc0e47088cb · 2024-04-28T18:31:21.000+02:00
diff --git a/common/ngram-cache.cpp b/common/ngram-cache.cpp
@@ -6,19 +6,18 @@
 #include <fstream>
 
 void llama_ngram_cache_update(llama_ngram_cache & ngram_cache, int ngram_min, int ngram_max,
-                              std::vector<llama_token> & inp, int nnew, bool print_progress) {
+                              llama_token * inp_data, int inp_size, int nnew, bool print_progress) {
     const int64_t t_start_ms = ggml_time_ms();
-    const int64_t inp_size = inp.size();
 
     const int64_t n_todo = inp_size * (ngram_max - ngram_min + 1);
     int64_t n_done = 0;
 
     for (int64_t ngram_size = ngram_min; ngram_size <= ngram_max; ++ngram_size) {
-        const int64_t i_start = std::max(inp_size - nnew, ngram_size);
+        const int64_t i_start = std::max((int64_t)(inp_size - nnew), ngram_size);
         for (int64_t i = i_start; i < inp_size; ++i) {
             const int64_t ngram_start = i - ngram_size;
-            llama_ngram ngram(&inp[ngram_start], ngram_size);
-            const llama_token token = inp[i];
+            llama_ngram ngram(inp_data + ngram_start, ngram_size);
+            const llama_token token = inp_data[i];
 
             llama_ngram_cache::iterator part_it = ngram_cache.find(ngram);
             if (part_it == ngram_cache.end()) {
diff --git a/common/ngram-cache.h b/common/ngram-cache.h
@@ -64,7 +64,7 @@ typedef std::unordered_map<llama_ngram, llama_ngram_cache_part, llama_ngram_hash
 // In order to get correct results inp_data can ONLY BE APPENDED TO.
 // Changes in the middle need a complete rebuild.
 void llama_ngram_cache_update(
-    llama_ngram_cache & ngram_cache, int ngram_min, int ngram_max, std::vector<llama_token> & inp_data, int nnew, bool print_progress);
+    llama_ngram_cache & ngram_cache, int ngram_min, int ngram_max, llama_token * inp_data, int inp_size, int nnew, bool print_progress);
 
 // Try to draft tokens from ngram caches.
 // inp:                the tokens generated so far.
diff --git a/examples/lookup/lookup-create.cpp b/examples/lookup/lookup-create.cpp
@@ -34,7 +34,7 @@ int main(int argc, char ** argv){
 
 
     llama_ngram_cache ngram_cache;
-    llama_ngram_cache_update(ngram_cache, LLAMA_NGRAM_STATIC, LLAMA_NGRAM_STATIC, inp, inp.size(), true);
+    llama_ngram_cache_update(ngram_cache, LLAMA_NGRAM_STATIC, LLAMA_NGRAM_STATIC, inp.data(), inp.size(), inp.size(), true);
     fprintf(stderr, "%s: hashing done, writing file to %s\n", __func__, params.lookup_cache_static.c_str());
 
     llama_ngram_cache_save(ngram_cache, params.lookup_cache_static);
diff --git a/examples/lookup/lookup-stats.cpp b/examples/lookup/lookup-stats.cpp
@@ -101,7 +101,8 @@ int main(int argc, char ** argv){
 
                 {
                     const int64_t t_start_draft_us = ggml_time_us();
-                    llama_ngram_cache_update(ngram_cache_context, LLAMA_NGRAM_MIN, LLAMA_NGRAM_MAX, pseudo_output, 1, false);
+                    llama_ngram_cache_update(
+                        ngram_cache_context, LLAMA_NGRAM_MIN, LLAMA_NGRAM_MAX, pseudo_output.data(), pseudo_output.size(), 1, false);
                     t_draft_us += ggml_time_us() - t_start_draft_us;
                 }
             }
@@ -111,7 +112,8 @@ int main(int argc, char ** argv){
                 pseudo_output.push_back(inp_slice[pseudo_output.size()]);
                 {
                     const int64_t t_start_draft_us = ggml_time_us();
-                    llama_ngram_cache_update(ngram_cache_context, LLAMA_NGRAM_MIN, LLAMA_NGRAM_MAX, pseudo_output, 1, false);
+                    llama_ngram_cache_update(
+                        ngram_cache_context, LLAMA_NGRAM_MIN, LLAMA_NGRAM_MAX, pseudo_output.data(), pseudo_output.size(), 1, false);
                     t_draft_us += ggml_time_us() - t_start_draft_us;
                 }
             }
diff --git a/examples/lookup/lookup.cpp b/examples/lookup/lookup.cpp
@@ -53,7 +53,7 @@ int main(int argc, char ** argv){
     {
         // Fill up context ngram cache with tokens from user input:
         const int64_t t_start_draft_us = ggml_time_us();
-        llama_ngram_cache_update(ngram_cache_context, LLAMA_NGRAM_MIN, LLAMA_NGRAM_MAX, inp, inp.size(), false);
+        llama_ngram_cache_update(ngram_cache_context, LLAMA_NGRAM_MIN, LLAMA_NGRAM_MAX, inp.data(), inp.size(), inp.size(), false);
 
         if (!params.lookup_cache_static.empty()) {
             if(!llama_ngram_cache_load(ngram_cache_static, params.lookup_cache_static)) {
@@ -153,7 +153,7 @@ int main(int argc, char ** argv){
                 {
                     // Update context ngram cache with the newly accepted token:
                     const int64_t t_start_draft_us = ggml_time_us();
-                    llama_ngram_cache_update(ngram_cache_context, LLAMA_NGRAM_MIN, LLAMA_NGRAM_MAX, inp, 1, false);
+                    llama_ngram_cache_update(ngram_cache_context, LLAMA_NGRAM_MIN, LLAMA_NGRAM_MAX, inp.data(), inp.size(), 1, false);
                     t_draft_us += ggml_time_us() - t_start_draft_us;
                 }
 
@@ -179,7 +179,7 @@ int main(int argc, char ** argv){
             {
                 // Update context ngram cache with the newly accepted token:
                 const int64_t t_start_draft_us = ggml_time_us();
-                llama_ngram_cache_update(ngram_cache_context, LLAMA_NGRAM_MIN, LLAMA_NGRAM_MAX, inp, 1, false);
+                llama_ngram_cache_update(ngram_cache_context, LLAMA_NGRAM_MIN, LLAMA_NGRAM_MAX, inp.data(), inp.size(), 1, false);
                 t_draft_us += ggml_time_us() - t_start_draft_us;
             }
             break;
diff --git a/examples/server/server.cpp b/examples/server/server.cpp
@@ -1081,7 +1081,8 @@ struct server_context {
             }
             for (auto slot : slots) {
                 memcpy(slot.context_tokens.data(), system_tokens.data(), system_tokens.size()*sizeof(llama_token));
-                llama_ngram_cache_update(slot.nc_context, LLAMA_NGRAM_MIN, LLAMA_NGRAM_MAX, system_tokens, system_tokens.size(), false);
+                llama_ngram_cache_update(
+                    slot.nc_context, LLAMA_NGRAM_MIN, LLAMA_NGRAM_MAX, system_tokens.data(), system_tokens.size(), system_tokens.size(), false);
             }
 
             const int32_t n_batch = llama_n_batch(ctx);
@@ -1901,8 +1902,8 @@ struct server_context {
             //       this is not great and needs to be improved somehow
             llama_batch_add(batch, slot.sampled, system_tokens.size() + slot_npast, { slot.id + 1 }, true);
             slot.context_tokens[system_tokens.size() + slot_npast] = slot.sampled;
-            std::vector<llama_token> tail(slot.context_tokens.begin(), slot.context_tokens.begin() + system_tokens.size() + slot_npast);
-            llama_ngram_cache_update(slot.nc_context, LLAMA_NGRAM_MIN, LLAMA_NGRAM_MAX, tail, 1, false);
+            llama_ngram_cache_update(
+                slot.nc_context, LLAMA_NGRAM_MIN, LLAMA_NGRAM_MAX, slot.context_tokens.data(), system_tokens.size() + slot_npast, 1, false);
 
             slot.n_past += 1;
 
@@ -2155,8 +2156,8 @@ struct server_context {
 
                         llama_batch_add(batch, prompt_tokens[slot.n_past], system_tokens.size() + slot_npast, { slot.id + 1 }, false);
                         slot.context_tokens[system_tokens.size() + slot_npast] = prompt_tokens[slot.n_past];
-                        std::vector<llama_token> tail(slot.context_tokens.begin(), slot.context_tokens.begin() + slot_npast);
-                        llama_ngram_cache_update(slot.nc_context, LLAMA_NGRAM_MIN, LLAMA_NGRAM_MAX, tail, 1, false);
+                        llama_ngram_cache_update(
+                            slot.nc_context, LLAMA_NGRAM_MIN, LLAMA_NGRAM_MAX, slot.context_tokens.data(), slot_npast, 1, false);
 
                         if (slot.params.cache_prompt) {
                             slot.cache_tokens.push_back(prompt_tokens[slot.n_past]);

Original file line number	Diff line number	Diff line change
`@@ -101,7 +101,8 @@ int main(int argc, char ** argv){`
`101`	`101`
`102`	`102`	`{`
`103`	`103`	`const int64_t t_start_draft_us = ggml_time_us();`
`104`		`- llama_ngram_cache_update(ngram_cache_context, LLAMA_NGRAM_MIN, LLAMA_NGRAM_MAX, pseudo_output, 1, false);`
	`104`	`+ llama_ngram_cache_update(`
	`105`	`+ ngram_cache_context, LLAMA_NGRAM_MIN, LLAMA_NGRAM_MAX, pseudo_output.data(), pseudo_output.size(), 1, false);`
`105`	`106`	`t_draft_us += ggml_time_us() - t_start_draft_us;`
`106`	`107`	`}`
`107`	`108`	`}`
`@@ -111,7 +112,8 @@ int main(int argc, char ** argv){`
`111`	`112`	`pseudo_output.push_back(inp_slice[pseudo_output.size()]);`
`112`	`113`	`{`
`113`	`114`	`const int64_t t_start_draft_us = ggml_time_us();`
`114`		`- llama_ngram_cache_update(ngram_cache_context, LLAMA_NGRAM_MIN, LLAMA_NGRAM_MAX, pseudo_output, 1, false);`
	`115`	`+ llama_ngram_cache_update(`
	`116`	`+ ngram_cache_context, LLAMA_NGRAM_MIN, LLAMA_NGRAM_MAX, pseudo_output.data(), pseudo_output.size(), 1, false);`
`115`	`117`	`t_draft_us += ggml_time_us() - t_start_draft_us;`
`116`	`118`	`}`
`117`	`119`	`}`
Original file line number	Diff line number	Diff line change
`@@ -53,7 +53,7 @@ int main(int argc, char ** argv){`
`53`	`53`	`{`
`54`	`54`	`// Fill up context ngram cache with tokens from user input:`
`55`	`55`	`const int64_t t_start_draft_us = ggml_time_us();`
`56`		`- llama_ngram_cache_update(ngram_cache_context, LLAMA_NGRAM_MIN, LLAMA_NGRAM_MAX, inp, inp.size(), false);`
	`56`	`+ llama_ngram_cache_update(ngram_cache_context, LLAMA_NGRAM_MIN, LLAMA_NGRAM_MAX, inp.data(), inp.size(), inp.size(), false);`
`57`	`57`
`58`	`58`	`if (!params.lookup_cache_static.empty()) {`
`59`	`59`	`if(!llama_ngram_cache_load(ngram_cache_static, params.lookup_cache_static)) {`
`@@ -153,7 +153,7 @@ int main(int argc, char ** argv){`
`153`	`153`	`{`
`154`	`154`	`// Update context ngram cache with the newly accepted token:`
`155`	`155`	`const int64_t t_start_draft_us = ggml_time_us();`
`156`		`- llama_ngram_cache_update(ngram_cache_context, LLAMA_NGRAM_MIN, LLAMA_NGRAM_MAX, inp, 1, false);`
	`156`	`+ llama_ngram_cache_update(ngram_cache_context, LLAMA_NGRAM_MIN, LLAMA_NGRAM_MAX, inp.data(), inp.size(), 1, false);`
`157`	`157`	`t_draft_us += ggml_time_us() - t_start_draft_us;`
`158`	`158`	`}`
`159`	`159`
`@@ -179,7 +179,7 @@ int main(int argc, char ** argv){`
`179`	`179`	`{`
`180`	`180`	`// Update context ngram cache with the newly accepted token:`
`181`	`181`	`const int64_t t_start_draft_us = ggml_time_us();`
`182`		`- llama_ngram_cache_update(ngram_cache_context, LLAMA_NGRAM_MIN, LLAMA_NGRAM_MAX, inp, 1, false);`
	`182`	`+ llama_ngram_cache_update(ngram_cache_context, LLAMA_NGRAM_MIN, LLAMA_NGRAM_MAX, inp.data(), inp.size(), 1, false);`
`183`	`183`	`t_draft_us += ggml_time_us() - t_start_draft_us;`
`184`	`184`	`}`
`185`	`185`	`break;`