[Bugfix]: Use float32 for base64 embedding (#7855)

HollowMan6 · web-flow · commit 0b769992ec1d · 2024-08-26T03:16:38.000Z
Signed-off-by: Hollow Man &lt;hollowman@opensuse.org&gt;
diff --git a/examples/openai_embedding_client.py b/examples/openai_embedding_client.py
@@ -19,7 +19,6 @@
         "The best thing about vLLM is that it supports many different models"
     ],
     model=model,
-    encoding_format="float",
 )
 
 for data in responses.data:
diff --git a/tests/entrypoints/openai/test_embedding.py b/tests/entrypoints/openai/test_embedding.py
@@ -128,9 +128,18 @@ async def test_batch_base64_embedding(embedding_client: openai.AsyncOpenAI,
     for data in responses_base64.data:
         decoded_responses_base64_data.append(
             np.frombuffer(base64.b64decode(data.embedding),
-                          dtype="float").tolist())
+                          dtype="float32").tolist())
 
     assert responses_float.data[0].embedding == decoded_responses_base64_data[
         0]
     assert responses_float.data[1].embedding == decoded_responses_base64_data[
         1]
+
+    # Default response is float32 decoded from base64 by OpenAI Client
+    responses_default = await embedding_client.embeddings.create(
+        input=input_texts, model=model_name)
+
+    assert responses_float.data[0].embedding == responses_default.data[
+        0].embedding
+    assert responses_float.data[1].embedding == responses_default.data[
+        1].embedding
diff --git a/vllm/entrypoints/openai/serving_embedding.py b/vllm/entrypoints/openai/serving_embedding.py
@@ -31,7 +31,9 @@ def _get_embedding(
     if encoding_format == "float":
         return output.embedding
     elif encoding_format == "base64":
-        embedding_bytes = np.array(output.embedding).tobytes()
+        # Force to use float32 for base64 encoding
+        # to match the OpenAI python client behavior
+        embedding_bytes = np.array(output.embedding, dtype="float32").tobytes()
         return base64.b64encode(embedding_bytes).decode("utf-8")
 
     assert_never(encoding_format)

Original file line number	Diff line number	Diff line change
`@@ -19,7 +19,6 @@`
`19`	`19`	`"The best thing about vLLM is that it supports many different models"`
`20`	`20`	`],`
`21`	`21`	`model=model,`
`22`		`- encoding_format="float",`
`23`	`22`	`)`
`24`	`23`
`25`	`24`	`for data in responses.data:`