beehive-lab
diff --git a/‎src/main/java/com/example/inference/InferenceEngine.java‎
Lines changed: 135 additions & 0 deletions b/‎src/main/java/com/example/inference/InferenceEngine.java‎
Lines changed: 135 additions & 0 deletions
diff --git a/‎src/main/java/com/example/inference/state/Qwen3State.java‎
Lines changed: 46 additions & 5 deletions b/‎src/main/java/com/example/inference/state/Qwen3State.java‎
Lines changed: 46 additions & 5 deletions
diff --git a/‎src/main/java/com/example/inference/weights/tornado/Qwen3TornadoWeights.java‎
Lines changed: 2 additions & 2 deletions b/‎src/main/java/com/example/inference/weights/tornado/Qwen3TornadoWeights.java‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎src/main/java/com/example/model/Model.java‎
Lines changed: 7 additions & 3 deletions b/‎src/main/java/com/example/model/Model.java‎
Lines changed: 7 additions & 3 deletions
diff --git a/‎src/main/java/com/example/model/llama/Llama.java‎
Lines changed: 7 additions & 0 deletions b/‎src/main/java/com/example/model/llama/Llama.java‎
Lines changed: 7 additions & 0 deletions
diff --git a/‎src/main/java/com/example/model/mistral/Mistral.java‎
Lines changed: 7 additions & 0 deletions b/‎src/main/java/com/example/model/mistral/Mistral.java‎
Lines changed: 7 additions & 0 deletions
diff --git a/‎src/main/java/com/example/model/qwen3/Qwen3.java‎
Lines changed: 12 additions & 1 deletion b/‎src/main/java/com/example/model/qwen3/Qwen3.java‎
Lines changed: 12 additions & 1 deletion
@@ -159,8 +159,15 @@ public static List<Integer> generateTokensQwen3(Model model, State state, int st
                 // We're still processing the prompt tokens
                 final int token = promptTokens.get(promptIndex);
 
+                //System.out.println("Token: " + token);
                 model.forward(state, token, position);
 
+//                System.out.println("Token = " + token + " -> state.logits = { " +
+//                        state.logits.getFloat(0) + ", " +
+//                        state.logits.getFloat(1) + ", " +
+//                        state.logits.getFloat(2) + ", " +
+//                        state.logits.getFloat(3) + " }");
+
                 promptIndex++;
                 if (promptIndex < promptTokens.size()) {
                     continue;
@@ -177,13 +184,28 @@ public static List<Integer> generateTokensQwen3(Model model, State state, int st
                     inferenceStartNanos = System.nanoTime();
                 }
 
+                //System.out.println("currentToken: " + currentToken);
                 model.forward(state, currentToken, position);
 
+//                System.out.println("currentToken = " + currentToken + " -> state.logits = { " +
+//                        state.logits.getFloat(0) + ", " +
+//                        state.logits.getFloat(1) + ", " +
+//                        state.logits.getFloat(2) + ", " +
+//                        state.logits.getFloat(3) + " }");
+
             }
 
+//            System.out.print("state.logits = { " +
+//                            state.logits.getFloat(0) + ", " +
+//                            state.logits.getFloat(1) + ", " +
+//                            state.logits.getFloat(2) + ", " +
+//                            state.logits.getFloat(3) + "}");
+
             // Sample the next token
             nextToken = sampler.sampleToken(state.logits);
 
+            //System.out.println(", nextToken: " + nextToken);
+
             // Output the token if echo is enabled
             if (echo) {
                 System.err.print(Tokenizer.replaceControlCharacters(model.tokenizer().decode(List.of(nextToken))));
@@ -249,6 +271,7 @@ public static List<Integer> generateTokensGPU(Model model, State state, int star
         // Main generation loop
         while (pos < actualMaxTokens) {
             // GPU Forward Pass - No conditional check since we know we're using GPU
+            //System.out.println("currentToken: " + currentToken);
             FloatArray logits = InferenceCore.forwardTornadoVM(model, state, currentToken, pos, tornadoVMPlan);
 
             // Process prompt tokens if still remaining
@@ -304,4 +327,116 @@ public static List<Integer> generateTokensGPU(Model model, State state, int star
 
         return generatedTokens;
     }
+
+    // probably not needed TODO: check this when its working
+    public static List<Integer> generateTokensGPUQwen3(Model model, State state, int startPosition, List<Integer> promptTokens, Set<Integer> stopTokens, int maxTokens, Sampler sampler, boolean echo,
+            IntConsumer onTokenGenerated, TornadoVMMasterPlan tornadoVMPlan) {
+        // Start timing the whole process
+        long startNanos = System.nanoTime();
+        long startGen = 0;
+        long inferenceStartNanos = 0;
+
+        // Pre-validate the max tokens to avoid checking in the loop
+        int actualMaxTokens = Math.min(maxTokens > 0 ? maxTokens : model.configuration().contextLength(), model.configuration().contextLength());
+
+        // Preallocate with expected capacity to avoid resizing
+        List<Integer> generatedTokens = new ArrayList<>(Math.min(256, actualMaxTokens - promptTokens.size())); // Conservative estimate
+
+        // Initialize token variables
+        int currentToken = state.latestToken; // BOS?
+        int nextToken = 0;
+        int promptIndex = 0;
+
+        // Use more efficient direct array access for prompt tokens if possible
+        int[] promptTokenArray = null;
+        if (promptTokens instanceof ArrayList) {
+            // Try to extract the underlying array for faster access
+            try {
+                // This is a performance optimization that may not work on all JVMs
+                promptTokenArray = promptTokens.stream().mapToInt(Integer::intValue).toArray();
+            } catch (Exception e) {
+                // Fall back to list access
+            }
+        }
+
+        for (int position = startPosition; position < maxTokens; ++position) {
+
+            // Handle token processing
+            if (promptIndex < promptTokens.size()) {
+                // We're still processing the prompt tokens
+                final int token = promptTokens.get(promptIndex);
+
+                //System.out.println("Token: " + token);
+                model.forward(state, token, position);
+
+//                System.out.println("Token = " + token + " -> state.wrapLogits = { " +
+//                        state.wrapLogits.get(0) + ", " +
+//                        state.wrapLogits.get(1) + ", " +
+//                        state.wrapLogits.get(2) + ", " +
+//                        state.wrapLogits.get(3) + " }");
+
+                promptIndex++;
+                if (promptIndex < promptTokens.size()) {
+                    continue;
+                }
+                if (echo) {
+                    System.err.print(Tokenizer.replaceControlCharacters(model.tokenizer().decode(List.of(nextToken))));
+                }
+                // We have reached the last prompt token and computed the first response-token.
+                startGen = System.nanoTime();
+                position++; // The current logit belongs to the next position
+            } else {
+                // Mark the start of actual generation (after prompt processing)
+                if (inferenceStartNanos == 0) {
+                    inferenceStartNanos = System.nanoTime();
+                }
+
+                //System.out.println("currentToken: " + currentToken);
+                model.forward(state, currentToken, position);
+
+//                System.out.println("currentToken = " + currentToken + " -> state.wrapLogits = { " +
+//                        state.wrapLogits.get(0) + ", " +
+//                        state.wrapLogits.get(1) + ", " +
+//                        state.wrapLogits.get(2) + ", " +
+//                        state.wrapLogits.get(3) + " }");
+
+            }
+
+
+            // Sample the next token
+            nextToken = sampler.sampleToken(state.wrapLogits);
+
+            //System.out.println(", nextToken: "+ nextToken);
+
+            // Output the token if echo is enabled
+            if (echo) {
+                System.err.print(Tokenizer.replaceControlCharacters(model.tokenizer().decode(List.of(nextToken))));
+            }
+
+            // Track the generated token
+            generatedTokens.add(nextToken);
+
+            // Notify via callback if provided
+            if (onTokenGenerated != null) {
+                onTokenGenerated.accept(nextToken);
+            }
+
+            // Check for stop condition
+            if (stopTokens.contains(nextToken)) {
+                break;
+            }
+
+            // Update for next iteration
+            state.latestToken = currentToken = nextToken;
+        }
+
+        // Calculate and print performance metrics
+        long endNanos = System.nanoTime();
+        double totalTimeSeconds = (endNanos - startNanos) / 1_000_000_000.0;
+        int totalTokens = promptIndex + generatedTokens.size();
+
+        LastRunMetrics.setMetrics(totalTokens, totalTimeSeconds);
+
+        return generatedTokens;
+    }
 }
@@ -14,10 +14,38 @@ public final class Qwen3State extends State {
     // Qwen3-specific field
     public final FloatTensor kq;
 
+    // Qwen3 temporary buffer for intermediate calculations, size adjusted for local workgroup size.
+    public FloatArray tempQcur;
+    public FloatArray tempKcur;
+
+    // dbg buffer
+    public FloatArray dbgQ;
+    public FloatArray dbgKeyCache;
+    public FloatArray dbgValueCache;
+    public FloatArray dbgX;
+    public FloatArray dbgXb;
+
     public Qwen3State(Configuration config, int batchsize) {
         super(config, batchsize);
         // Initialize Qwen3-specific field
         this.kq = ArrayFloatTensor.allocate(config.numberOfHeads(), 32, 15);
+        this.tempQcur = new FloatArray(1 + ((config.dim() + localSize-1) / localSize));
+        this.tempKcur = new FloatArray(1 + ((config.dim() + localSize-1) / localSize));
+
+        // dbg buffers
+        Qwen3Configuration qwen3config = (Qwen3Configuration) config;
+        int nHeadKv = qwen3config.numberOfKeyValueHeads();
+        int nEmbdHeadK = qwen3config.numberOfHeadsKey();
+        int nEmbdKGqa = nEmbdHeadK * nHeadKv;
+        int nEmbdHeadV = qwen3config.numberOfHeadsValue();
+        int nEmbdVGqa = nEmbdHeadV * nHeadKv;
+        int nEmbdGqa = nEmbdVGqa;
+
+        this.dbgQ = new FloatArray(nEmbdHeadK * qwen3config.numberOfHeads());
+        this.dbgKeyCache = new FloatArray(qwen3config.contextLength() * nEmbdGqa * qwen3config.numberOfLayers());
+        this.dbgValueCache = new FloatArray(qwen3config.contextLength() * nEmbdGqa * qwen3config.numberOfLayers());
+        this.dbgX = new FloatArray(config.dim());
+        this.dbgXb = new FloatArray(nEmbdHeadK * qwen3config.numberOfHeads());
     }
 
     @Override
@@ -26,10 +54,15 @@ protected StateFields createStateFields(Configuration configuration) {
 
         Qwen3Configuration config = (Qwen3Configuration) configuration;
 
+        //localSize = 128;
+
         // Qwen3-specific calculations
         int nHeadKv = config.numberOfKeyValueHeads();
         int nEmbdHeadK = config.numberOfHeadsKey();
         int nEmbdKGqa = nEmbdHeadK * nHeadKv;
+        int nEmbdHeadV = config.numberOfHeadsValue();
+        int nEmbdVGqa = nEmbdHeadV * nHeadKv;
+        int nEmbdGqa = nEmbdVGqa;
 
         // Qwen3-specific allocation logic
         fields.x = ArrayFloatTensor.allocate(config.dim());
@@ -44,10 +77,9 @@ protected StateFields createStateFields(Configuration configuration) {
         fields.logits = ArrayFloatTensor.allocate(config.vocabularySize());
 
         // Key-value cache with Qwen3 dimensions
-        int kvDim = nEmbdKGqa;
-        fields.keyCache = Stream.generate(() -> ArrayFloatTensor.allocate(config.contextLength(), kvDim))
+        fields.keyCache = Stream.generate(() -> ArrayFloatTensor.allocate(config.contextLength(), nEmbdGqa))
                 .limit(config.numberOfLayers()).toArray(FloatTensor[]::new);
-        fields.valueCache = Stream.generate(() -> ArrayFloatTensor.allocate(config.contextLength(), kvDim))
+        fields.valueCache = Stream.generate(() -> ArrayFloatTensor.allocate(config.contextLength(), nEmbdGqa))
                 .limit(config.numberOfLayers()).toArray(FloatTensor[]::new);
 
         // TornadoVM wrappers with Qwen3-specific sizes
@@ -61,8 +93,8 @@ protected StateFields createStateFields(Configuration configuration) {
         fields.wrapK = new FloatArray(nEmbdKGqa);  // Different from Llama!
         fields.wrapV = new FloatArray(nEmbdKGqa);  // Different from Llama!
 
-        fields.wrapKeyCache = new FloatArray(config.contextLength() * kvDim * config.numberOfLayers());
-        fields.wrapValueCache = new FloatArray(config.contextLength() * kvDim * config.numberOfLayers());
+        fields.wrapKeyCache = new FloatArray(config.contextLength() * nEmbdGqa * config.numberOfLayers());
+        fields.wrapValueCache = new FloatArray(config.contextLength() * nEmbdGqa * config.numberOfLayers());
         fields.wrapValueCache.init(0.f);
         fields.wrapKeyCache.init(0.f);
         fields.wrapAtt = new FloatArray(config.numberOfHeads() * config.contextLength());
@@ -73,6 +105,15 @@ protected StateFields createStateFields(Configuration configuration) {
         fields.tempFFN = new FloatArray(1 + ((config.dim() + localSize-1) / localSize));
         fields.tempLogits = new FloatArray(1 + ((config.dim() + localSize-1) / localSize));
 
+        System.out.println("nEmbdHeadK: " + nEmbdHeadK);
+        System.out.println("nEmbdHeadV: " + nEmbdHeadV);
+        System.out.println("nEmbdKGqa: " + nEmbdKGqa);
+        System.out.println("nEmbdVGqa: " + nEmbdVGqa);
+        System.out.println("nEmbdGqa: " + nEmbdGqa);
+        System.out.println("wrapK.getSize(): " + fields.wrapK.getSize());
+        System.out.println("wrapV.getSize(): " + fields.wrapV.getSize());
+        System.out.println("wrapV.getSize(): " + fields.wrapV.getSize());
+
         return fields;
     }
 }
@@ -7,9 +7,9 @@
 public class Qwen3TornadoWeights extends TornadoWeights {
 
     //attnKNorm
-    FloatArray[] rms_att_KNormLayered;
+    public FloatArray[] rms_att_KNormLayered;
     //attnQNorm
-    FloatArray[] rms_att_QNormLayered;
+    public FloatArray[] rms_att_QNormLayered;
 
     public Qwen3TornadoWeights(FloatArray tokenEmbeddingTable, FloatArray[] rms_att_weightLayered,
             HalfFloatArray[] wqLayered, HalfFloatArray[] wkLayered, HalfFloatArray[] wvLayered, HalfFloatArray[] woLayered,
 
@@ -54,6 +54,9 @@ public interface Model {
      */
     List<Integer> generateTokens(State state, int startPosition, List<Integer> promptTokens, Set<Integer> stopTokens, int maxTokens, Sampler sampler, boolean echo, IntConsumer onTokenGenerated);
 
+    List<Integer> generateTokensGPU(State state, int startPosition, List<Integer> promptTokens, Set<Integer> stopTokens, int maxTokens, Sampler sampler, boolean echo,
+            IntConsumer onTokenGenerated, TornadoVMMasterPlan tornadoVMPlan);
+
     /**
      * Model agnostic default implementation for interactive mode.
      * @param sampler
@@ -113,7 +116,7 @@ default void runInteractive(Sampler sampler, Options options) {
                 // Choose between GPU and CPU path based on configuration
                 if (USE_TORNADOVM) {
                     // GPU path using TornadoVM
-                    responseTokens = InferenceEngine.generateTokensGPU(this, state, startPosition, conversationTokens.subList(startPosition, conversationTokens.size()), stopTokens,
+                    responseTokens = generateTokensGPU(state, startPosition, conversationTokens.subList(startPosition, conversationTokens.size()), stopTokens,
                             options.maxTokens(), sampler, options.echo(), options.stream() ? tokenConsumer : null, tornadoVMPlan);
                 } else {
                     // CPU path
@@ -193,8 +196,9 @@ default void runInstructOnce(Sampler sampler, Options options) {
         if (USE_TORNADOVM) {
             tornadoVMPlan = TornadoVMMasterPlan.initializeTornadoVMPlan(state, this);
             // Call generateTokensGPU without the token consumer parameter
-            responseTokens = InferenceEngine.generateTokensGPU(this, state, 0, promptTokens, stopTokens, options.maxTokens(), sampler, options.echo(), options.stream() ? tokenConsumer : null,
-                    tornadoVMPlan);
+            //responseTokens = InferenceEngine.generateTokensGPU(this, state, 0, promptTokens, stopTokens, options.maxTokens(), sampler, options.echo(), options.stream() ? tokenConsumer : null,
+            //        tornadoVMPlan);
+            responseTokens = generateTokensGPU(state, 0, promptTokens, stopTokens, options.maxTokens(), sampler, options.echo(), options.stream() ? tokenConsumer : null, tornadoVMPlan);
         } else {
             responseTokens = generateTokens(state, 0, promptTokens, stopTokens, options.maxTokens(), sampler, options.echo(), tokenConsumer);
         }
 
@@ -11,6 +11,7 @@
 import com.example.model.format.ChatFormat;
 import com.example.tokenizer.impl.LlamaTokenizer;
 import com.example.tokenizer.impl.Tokenizer;
+import com.example.tornadovm.TornadoVMMasterPlan;
 
 import java.util.List;
 import java.util.Set;
@@ -64,5 +65,11 @@ public void forward(State state, int token, int position) {
     public List<Integer> generateTokens(State state, int startPosition, List<Integer> promptTokens, Set<Integer> stopTokens, int maxTokens, Sampler sampler, boolean echo, IntConsumer onTokenGenerated) {
         return InferenceEngine.generateTokensLlama(this, state, startPosition, promptTokens, stopTokens, maxTokens, sampler, echo, onTokenGenerated);
     }
+
+    @Override
+    public List<Integer> generateTokensGPU(State state, int startPosition, List<Integer> promptTokens, Set<Integer> stopTokens, int maxTokens, Sampler sampler, boolean echo,
+            IntConsumer onTokenGenerated, TornadoVMMasterPlan tornadoVMPlan) {
+        return InferenceEngine.generateTokensGPU(this, state, startPosition, promptTokens, stopTokens, maxTokens, sampler, echo, onTokenGenerated, tornadoVMPlan);
+    }
 }
 
@@ -11,6 +11,7 @@
 import com.example.model.format.ChatFormat;
 import com.example.tokenizer.impl.MistralTokenizer;
 import com.example.tokenizer.impl.Tokenizer;
+import com.example.tornadovm.TornadoVMMasterPlan;
 
 import java.util.List;
 import java.util.Set;
@@ -62,4 +63,10 @@ public List<Integer> generateTokens(State state, int startPosition, List<Integer
         return InferenceEngine.generateTokensLlama(this, state, startPosition, promptTokens, stopTokens, maxTokens, sampler, echo, onTokenGenerated);
     }
 
+    @Override
+    public List<Integer> generateTokensGPU(State state, int startPosition, List<Integer> promptTokens, Set<Integer> stopTokens, int maxTokens, Sampler sampler, boolean echo,
+            IntConsumer onTokenGenerated, TornadoVMMasterPlan tornadoVMPlan) {
+        return InferenceEngine.generateTokensGPU(this, state, startPosition, promptTokens, stopTokens, maxTokens, sampler, echo, onTokenGenerated, tornadoVMPlan);
+    }
+
 }
@@ -11,6 +11,7 @@
 import com.example.model.format.ChatFormat;
 import com.example.tokenizer.impl.Qwen3Tokenizer;
 import com.example.tokenizer.impl.Tokenizer;
+import com.example.tornadovm.TornadoVMMasterPlan;
 
 import java.util.List;
 import java.util.Set;
@@ -54,12 +55,22 @@ public State createNewState(int batchsize) {
 
     @Override
     public void forward(State state, int token, int position) {
-        InferenceCore.forwardJavaQwen3(this, state, token, position);
+        if (plan == null) {
+            InferenceCore.forwardJavaQwen3(this, state, token, position);
+        } else {
+            InferenceCore.forwardTornadoVM(this, state, token, position, tornadoVMPlan());
+        }
     }
 
     @Override
     public List<Integer> generateTokens(State state, int startPosition, List<Integer> promptTokens, Set<Integer> stopTokens, int maxTokens, Sampler sampler, boolean echo, IntConsumer onTokenGenerated) {
         return InferenceEngine.generateTokensQwen3(this, state, startPosition, promptTokens, stopTokens, maxTokens, sampler, echo, onTokenGenerated);
     }
 
+    @Override
+    public List<Integer> generateTokensGPU(State state, int startPosition, List<Integer> promptTokens, Set<Integer> stopTokens, int maxTokens, Sampler sampler, boolean echo,
+            IntConsumer onTokenGenerated, TornadoVMMasterPlan tornadoVMPlan) {
+        return InferenceEngine.generateTokensGPUQwen3(this, state, startPosition, promptTokens, stopTokens, maxTokens, sampler, echo, onTokenGenerated, tornadoVMPlan);
+    }
+
 }