[BugFix] Fix incremental detokenization perf issue (vllm-project#16963)

njhill · adobrzyn · commit 74dd803540d6 · 2025-04-30T09:58:20.000+03:00
Signed-off-by: Nick Hill &lt;nhill@redhat.com&gt;
Signed-off-by: Agata Dobrzyniewicz &lt;adobrzyniewicz@habana.ai&gt;
diff --git a/vllm/v1/engine/detokenizer.py b/vllm/v1/engine/detokenizer.py
@@ -161,7 +161,7 @@ def __init__(self, tokenizer: PreTrainedTokenizerFast,
         prompt_suffix = request.prompt_token_ids
         prompt_len = len(prompt_suffix)
         if prompt_len > 4:
-            for i in range(4, max(prompt_len + 1, 32)):
+            for i in range(4, min(prompt_len + 1, 24)):
                 suffix = request.prompt_token_ids[-i:]
                 if '�' not in self.tokenizer.decode(suffix):
                     prompt_suffix = suffix