From a4ee6277058be405fcd97e5edab467b7e543a7a5 Mon Sep 17 00:00:00 2001
From: Isotr0py <2037008807@qq.com>
Date: Thu, 7 Nov 2024 13:11:19 +0800
Subject: [PATCH 1/4] bump test transformers version to 4.46.2

Signed-off-by: Isotr0py <2037008807@qq.com>
---
 requirements-test.txt                         |  4 ++--
 .../vision_language/test_models.py            | 21 -------------------
 .../vision_language/test_llava_next.py        |  3 ---
 vllm/model_executor/models/idefics3.py        |  3 +--
 4 files changed, 3 insertions(+), 28 deletions(-)

diff --git a/requirements-test.txt b/requirements-test.txt
index 518e81021cbc..416a42a0b176 100644
--- a/requirements-test.txt
+++ b/requirements-test.txt
@@ -490,7 +490,7 @@ tiktoken==0.8.0
     # via lm-eval
 timm==1.0.11
     # via -r requirements-test.in
-tokenizers==0.20.1
+tokenizers==0.20.3
     # via transformers
 torch==2.5.1
     # via
@@ -518,7 +518,7 @@ tqdm==4.66.6
     #   transformers
 tqdm-multiprocess==0.0.11
     # via lm-eval
-transformers==4.45.2
+transformers==4.46.2
     # via
     #   lm-eval
     #   peft
diff --git a/tests/models/decoder_only/vision_language/test_models.py b/tests/models/decoder_only/vision_language/test_models.py
index 3dbfaafb781a..8cd33b00c2b3 100644
--- a/tests/models/decoder_only/vision_language/test_models.py
+++ b/tests/models/decoder_only/vision_language/test_models.py
@@ -6,7 +6,6 @@
 from typing import Type
 
 import pytest
-import transformers
 from transformers import AutoModelForVision2Seq
 
 from vllm.platforms import current_platform
@@ -155,12 +154,6 @@
         comparator=check_outputs_equal,
         max_tokens=8,
         dtype="bfloat16",
-        marks=[
-            pytest.mark.skipif(
-                transformers.__version__.startswith("4.46"),
-                reason="Model broken in HF, see huggingface/transformers#34379"
-            )
-        ]
     ),
     "fuyu": VLMTestInfo(
         models=["adept/fuyu-8b"],
@@ -273,12 +266,6 @@
         auto_cls=AutoModelForVision2Seq,
         vllm_output_post_proc=model_utils.llava_video_vllm_to_hf_output,
         image_sizes=[((1669, 2560), (2560, 1669), (183, 488), (488, 183))],
-        marks=[
-            pytest.mark.skipif(
-                transformers.__version__.startswith("4.46"),
-                reason="Model broken with changes in transformers 4.46"
-            )
-        ],
     ),
     "minicpmv": VLMTestInfo(
         models=["openbmb/MiniCPM-Llama3-V-2_5"],
@@ -336,10 +323,6 @@
         max_num_seqs=2,
         auto_cls=AutoModelForVision2Seq,
         marks=[
-            pytest.mark.skipif(
-                transformers.__version__ < "4.46.0",
-                reason="Model introduced in HF >= 4.46.0"
-            ),
             large_gpu_mark(min_gb=48),
         ],
     ),
@@ -361,10 +344,6 @@
                 cuda_device_count_stateless() < 2,
                 reason="Need at least 2 GPUs to run the test.",
             ),
-            pytest.mark.skipif(
-                transformers.__version__.startswith("4.46"),
-                reason="Model broken in HF, see huggingface/transformers#34379"
-            )
         ],
         **COMMON_BROADCAST_SETTINGS # type: ignore
     ),
diff --git a/tests/models/embedding/vision_language/test_llava_next.py b/tests/models/embedding/vision_language/test_llava_next.py
index 9fab5898a06b..52aef8c34d6f 100644
--- a/tests/models/embedding/vision_language/test_llava_next.py
+++ b/tests/models/embedding/vision_language/test_llava_next.py
@@ -2,7 +2,6 @@
 
 import pytest
 import torch.nn.functional as F
-import transformers
 from transformers import AutoModelForVision2Seq
 
 from ....conftest import IMAGE_ASSETS, HfRunner, PromptImageInput, VllmRunner
@@ -86,8 +85,6 @@ def _run_test(
     )
 
 
-@pytest.mark.skipif(transformers.__version__.startswith("4.46"),
-                    reason="Model broken with changes in transformers 4.46")
 @pytest.mark.parametrize("model", MODELS)
 @pytest.mark.parametrize("dtype", ["half"])
 def test_models_text(
diff --git a/vllm/model_executor/models/idefics3.py b/vllm/model_executor/models/idefics3.py
index e4c98f22fb16..8671e4bc8d94 100644
--- a/vllm/model_executor/models/idefics3.py
+++ b/vllm/model_executor/models/idefics3.py
@@ -21,8 +21,7 @@
 import torch.utils.checkpoint
 from PIL import Image
 from torch import nn
-# Temporary solution for transformers below 4.46.0.
-from transformers import PretrainedConfig as Idefics3Config
+from transformers import Idefics3Config
 
 from vllm.attention import AttentionMetadata
 from vllm.config import CacheConfig, MultiModalConfig

From 82477202c7a173642587f921eac3a479207bbf6d Mon Sep 17 00:00:00 2001
From: Isotr0py <2037008807@qq.com>
Date: Thu, 7 Nov 2024 14:14:05 +0800
Subject: [PATCH 2/4] remove FIXME

Signed-off-by: Isotr0py <2037008807@qq.com>
---
 tests/models/decoder_only/vision_language/test_models.py | 1 -
 1 file changed, 1 deletion(-)

diff --git a/tests/models/decoder_only/vision_language/test_models.py b/tests/models/decoder_only/vision_language/test_models.py
index 8cd33b00c2b3..460dc9b3f3db 100644
--- a/tests/models/decoder_only/vision_language/test_models.py
+++ b/tests/models/decoder_only/vision_language/test_models.py
@@ -256,7 +256,6 @@
             runner_mm_key="videos",
         )],
     ),
-    # FIXME
     "llava_next_video": VLMTestInfo(
         models=["llava-hf/LLaVA-NeXT-Video-7B-hf"],
         test_type=VLMTestType.VIDEO,

From 9e3b23369bf09b89d39456b545446361089e8500 Mon Sep 17 00:00:00 2001
From: DarkLight1337 <tlleungac@connect.ust.hk>
Date: Thu, 5 Dec 2024 10:59:27 +0000
Subject: [PATCH 3/4] Bump transformers patch version

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
---
 requirements-test.txt | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/requirements-test.txt b/requirements-test.txt
index 322868e224e9..19369254dbe2 100644
--- a/requirements-test.txt
+++ b/requirements-test.txt
@@ -550,7 +550,7 @@ tqdm==4.66.6
     #   transformers
 tqdm-multiprocess==0.0.11
     # via lm-eval
-transformers==4.46.2
+transformers==4.46.3
     # via
     #   lm-eval
     #   peft

From bfb03a39d4e1f03b49d96be8210ff50889b94df6 Mon Sep 17 00:00:00 2001
From: DarkLight1337 <tlleungac@connect.ust.hk>
Date: Thu, 5 Dec 2024 14:09:09 +0000
Subject: [PATCH 4/4] Update

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
---
 tests/models/decoder_only/vision_language/test_pixtral.py | 2 +-
 tests/models/test_initialization.py                       | 5 -----
 2 files changed, 1 insertion(+), 6 deletions(-)

diff --git a/tests/models/decoder_only/vision_language/test_pixtral.py b/tests/models/decoder_only/vision_language/test_pixtral.py
index 6233860747b9..90c0fab99054 100644
--- a/tests/models/decoder_only/vision_language/test_pixtral.py
+++ b/tests/models/decoder_only/vision_language/test_pixtral.py
@@ -228,7 +228,7 @@ def test_model_engine(vllm_runner, model: str, dtype: str) -> None:
                          name_1="output")
 
 
-@large_gpu_test(min_gb=24)
+@large_gpu_test(min_gb=48)
 @pytest.mark.parametrize(
     "prompt,expected_ranges",
     [(_create_engine_inputs_hf(IMG_URLS[:1]), [{
diff --git a/tests/models/test_initialization.py b/tests/models/test_initialization.py
index 2a072737db04..3b728f2744fc 100644
--- a/tests/models/test_initialization.py
+++ b/tests/models/test_initialization.py
@@ -1,7 +1,6 @@
 from unittest.mock import patch
 
 import pytest
-import transformers
 from transformers import PretrainedConfig
 
 from vllm import LLM
@@ -11,10 +10,6 @@
 
 @pytest.mark.parametrize("model_arch", HF_EXAMPLE_MODELS.get_supported_archs())
 def test_can_initialize(model_arch):
-    if (model_arch in {"Idefics3ForConditionalGeneration", "GlmForCausalLM"}
-            and transformers.__version__ < "4.46.0"):
-        pytest.skip(reason="Model introduced in HF >= 4.46.0")
-
     model_info = HF_EXAMPLE_MODELS.get_hf_info(model_arch)
     if not model_info.is_available_online:
         pytest.skip("Model is not available online")