From e5a8be248bf99cfb7c0e1d37cf67218e8a7346ef Mon Sep 17 00:00:00 2001
From: Julien Lin <jullin@nvidia.com>
Date: Wed, 17 Sep 2025 05:55:18 +0000
Subject: [PATCH] set two H2D to non-blocking

Signed-off-by: Julien Lin <jullin@nvidia.com>
---
 vllm/v1/attention/backends/flashinfer.py | 5 +++--
 1 file changed, 3 insertions(+), 2 deletions(-)

diff --git a/vllm/v1/attention/backends/flashinfer.py b/vllm/v1/attention/backends/flashinfer.py
index 98a4cf38bc19..bbd5b6c39150 100755
--- a/vllm/v1/attention/backends/flashinfer.py
+++ b/vllm/v1/attention/backends/flashinfer.py
@@ -578,9 +578,10 @@ def build(self,
                         kv_data_type=self.kv_cache_dtype,
                     )
                 else:
-                    attn_metadata.qo_indptr_gpu = qo_indptr_cpu.to(self.device)
+                    attn_metadata.qo_indptr_gpu = qo_indptr_cpu.to(
+                        self.device, non_blocking=True)
                     attn_metadata.paged_kv_indptr_gpu = paged_kv_indptr_cpu.to(
-                        self.device)
+                        self.device, non_blocking=True)
 
             if num_decodes > 0:
                 pure_decode = num_prefills == 0