[BugFix] Make FlashInferMetadataBuilder non-blocking (#25040)

nvjullin · mgoin · yewentao256 · commit d0a1364188c7 · 2025-10-03T13:35:53.000-07:00
Signed-off-by: Julien Lin &lt;jullin@nvidia.com&gt;
Co-authored-by: Michael Goin &lt;mgoin64@gmail.com&gt;
Signed-off-by: yewentao256 &lt;zhyanwentao@126.com&gt;
diff --git a/vllm/v1/attention/backends/flashinfer.py b/vllm/v1/attention/backends/flashinfer.py
@@ -585,9 +585,10 @@ def build(self,
                         kv_data_type=self.kv_cache_dtype,
                     )
                 else:
-                    attn_metadata.qo_indptr_gpu = qo_indptr_cpu.to(self.device)
+                    attn_metadata.qo_indptr_gpu = qo_indptr_cpu.to(
+                        self.device, non_blocking=True)
                     attn_metadata.paged_kv_indptr_gpu = paged_kv_indptr_cpu.to(
-                        self.device)
+                        self.device, non_blocking=True)
 
             if num_decodes > 0:
                 pure_decode = num_prefills == 0