Windows test

ivanstepanovftw · ivanstepanovftw · commit d5e95755f3a0 · 2023-04-28T21:57:53.000+03:00
diff --git a/llama.cpp b/llama.cpp
@@ -1480,37 +1480,38 @@ static std::vector<llama_vocab::id> llama_tokenize(const llama_vocab & vocab, co
 //
 
 void llama_sample_softmax(struct llama_context * ctx, llama_token_data_array * candidates) {
+    printf("llama_sample_softmax\n"); fflush(stdout);
     assert(candidates->size > 0);
-    printf("llama_sample_softmax\n");
 
     const int64_t t_start_sample_us = ggml_time_us();
 
+    printf("llama_sample_softmax 1\n"); fflush(stdout);
     // Sort the logits in descending order
     if (!candidates->sorted) {
         std::sort(candidates->data, candidates->data + candidates->size, [](const llama_token_data & a, const llama_token_data & b) {
             return a.logit > b.logit;
         });
         candidates->sorted = true;
     }
-    printf("llama_sample_softmax 2\n");
+    printf("llama_sample_softmax 2\n"); fflush(stdout);
 
     float max_l = candidates->data[0].logit;
-    printf("max_l = %f\n", max_l);
-    fflush(stdout);
+    printf("max_l = %f\n", max_l); fflush(stdout);
     float cum_sum = 0.0f;
     for (size_t i = 0; i < candidates->size; ++i) {
-        printf("i = %d, logit = %f\n", i, candidates->data[i].logit);
-        fflush(stdout);
+        printf("i = %d, logit = %f\n", i, candidates->data[i].logit); fflush(stdout);
         float p = expf(candidates->data[i].logit - max_l);
+        printf("        p = %f\n", p); fflush(stdout);
         candidates->data[i].p = p;
         cum_sum += p;
+        printf("        cum_sum = %f\n", cum_sum); fflush(stdout);
     }
     printf("cum_sum = %f\n", cum_sum);
     fflush(stdout);
     for (size_t i = 0; i < candidates->size; ++i) {
-        printf("i = %d, p = %f\n", i, candidates->data[i].logit);
-        fflush(stdout);
+        printf("i = %d, p = %f\n", i, candidates->data[i].p); fflush(stdout);
         candidates->data[i].p /= cum_sum;
+        printf("        p = %f\n", candidates->data[i].p); fflush(stdout);
     }
 
     if (ctx) {
@@ -1521,26 +1522,35 @@ void llama_sample_softmax(struct llama_context * ctx, llama_token_data_array * c
 void llama_sample_top_k(struct llama_context * ctx, llama_token_data_array * candidates, int k, size_t min_keep) {
     const int64_t t_start_sample_us = ggml_time_us();
 
+    printf("llama_sample_top_k\n"); fflush(stdout);
     k = std::max(k, (int) min_keep);
     k = std::min(k, (int) candidates->size);
+    printf("llama_sample_top_k 2\n"); fflush(stdout);
 
     // Sort scores in descending order
     if (!candidates->sorted) {
+        printf("llama_sample_top_k 3\n"); fflush(stdout);
         auto comp = [](const llama_token_data & a, const llama_token_data & b) {
+            printf("llama_sample_top_k 4\n"); fflush(stdout);
             return a.logit > b.logit;
         };
         if (k == (int) candidates->size) {
+            printf("llama_sample_top_k 5\n"); fflush(stdout);
             std::sort(candidates->data, candidates->data + candidates->size, comp);
         } else {
+            printf("llama_sample_top_k 6\n"); fflush(stdout);
             std::partial_sort(candidates->data, candidates->data + k, candidates->data + candidates->size, comp);
         }
+        printf("llama_sample_top_k 7\n"); fflush(stdout);
         candidates->sorted = true;
     }
     candidates->size = k;
+    printf("llama_sample_top_k 8\n"); fflush(stdout);
 
     if (ctx) {
         ctx->t_sample_us += ggml_time_us() - t_start_sample_us;
     }
+    printf("llama_sample_top_k 9\n"); fflush(stdout);
 }
 
 void llama_sample_top_p(struct llama_context * ctx, llama_token_data_array * candidates, float p, size_t min_keep) {