fix: apply black formatting to llm-katan Python files for CI compliance

yossiovadia · yossiovadia · commit c5968f09d3ce · 2025-10-06T21:17:40.000-07:00
Signed-off-by: Yossi Ovadia &lt;yovadia@redhat.com&gt;
diff --git a/e2e-tests/llm-katan/llm_katan/cli.py b/e2e-tests/llm-katan/llm_katan/cli.py
@@ -161,7 +161,8 @@ def main(
         import transformers  # noqa: F401
     except ImportError:
         click.echo(
-            "❌ Required dependencies missing. " "Install with: pip install transformers torch",
+            "❌ Required dependencies missing. "
+            "Install with: pip install transformers torch",
             err=True,
         )
         sys.exit(1)
diff --git a/e2e-tests/llm-katan/llm_katan/config.py b/e2e-tests/llm-katan/llm_katan/config.py
@@ -36,7 +36,9 @@ def __post_init__(self):
 
         # Validate backend
         if self.backend not in ["transformers", "vllm"]:
-            raise ValueError(f"Invalid backend: {self.backend}. Must be 'transformers' or 'vllm'")
+            raise ValueError(
+                f"Invalid backend: {self.backend}. Must be 'transformers' or 'vllm'"
+            )
 
     @property
     def device_auto(self) -> str:
diff --git a/e2e-tests/llm-katan/llm_katan/model.py b/e2e-tests/llm-katan/llm_katan/model.py
@@ -103,7 +103,9 @@ async def generate(
             raise RuntimeError("Model not loaded. Call load_model() first.")
 
         max_tokens = max_tokens or self.config.max_tokens
-        temperature = temperature if temperature is not None else self.config.temperature
+        temperature = (
+            temperature if temperature is not None else self.config.temperature
+        )
 
         # Convert messages to prompt
         prompt = self._messages_to_prompt(messages)
@@ -168,7 +170,9 @@ async def generate(
                     "choices": [
                         {
                             "index": 0,
-                            "delta": {"content": word + " " if i < len(words) - 1 else word},
+                            "delta": {
+                                "content": word + " " if i < len(words) - 1 else word
+                            },
                             "logprobs": None,
                             "finish_reason": None,
                         }
@@ -184,7 +188,9 @@ async def generate(
                 "created": response_data["created"],
                 "model": self.config.served_model_name,
                 "system_fingerprint": "llm-katan-transformers",
-                "choices": [{"index": 0, "delta": {}, "logprobs": None, "finish_reason": "stop"}],
+                "choices": [
+                    {"index": 0, "delta": {}, "logprobs": None, "finish_reason": "stop"}
+                ],
                 "usage": {
                     "prompt_tokens": prompt_tokens,
                     "completion_tokens": completion_tokens,
@@ -281,7 +287,9 @@ async def generate(
         from vllm.sampling_params import SamplingParams
 
         max_tokens = max_tokens or self.config.max_tokens
-        temperature = temperature if temperature is not None else self.config.temperature
+        temperature = (
+            temperature if temperature is not None else self.config.temperature
+        )
 
         # Convert messages to prompt
         prompt = self._messages_to_prompt(messages)
@@ -293,7 +301,9 @@ async def generate(
 
         # Generate
         loop = asyncio.get_event_loop()
-        outputs = await loop.run_in_executor(None, self.engine.generate, [prompt], sampling_params)
+        outputs = await loop.run_in_executor(
+            None, self.engine.generate, [prompt], sampling_params
+        )
 
         output = outputs[0]
         generated_text = output.outputs[0].text.strip()
@@ -316,7 +326,8 @@ async def generate(
             "usage": {
                 "prompt_tokens": len(output.prompt_token_ids),
                 "completion_tokens": len(output.outputs[0].token_ids),
-                "total_tokens": len(output.prompt_token_ids) + len(output.outputs[0].token_ids),
+                "total_tokens": len(output.prompt_token_ids)
+                + len(output.outputs[0].token_ids),
                 "prompt_tokens_details": {"cached_tokens": 0},
                 "completion_tokens_details": {"reasoning_tokens": 0},
             },
@@ -338,7 +349,9 @@ async def generate(
                     "choices": [
                         {
                             "index": 0,
-                            "delta": {"content": word + " " if i < len(words) - 1 else word},
+                            "delta": {
+                                "content": word + " " if i < len(words) - 1 else word
+                            },
                             "logprobs": None,
                             "finish_reason": None,
                         }
@@ -354,11 +367,14 @@ async def generate(
                 "created": response_data["created"],
                 "model": self.config.served_model_name,
                 "system_fingerprint": "llm-katan-vllm",
-                "choices": [{"index": 0, "delta": {}, "logprobs": None, "finish_reason": "stop"}],
+                "choices": [
+                    {"index": 0, "delta": {}, "logprobs": None, "finish_reason": "stop"}
+                ],
                 "usage": {
                     "prompt_tokens": len(output.prompt_token_ids),
                     "completion_tokens": len(output.outputs[0].token_ids),
-                    "total_tokens": len(output.prompt_token_ids) + len(output.outputs[0].token_ids),
+                    "total_tokens": len(output.prompt_token_ids)
+                    + len(output.outputs[0].token_ids),
                     "prompt_tokens_details": {"cached_tokens": 0},
                     "completion_tokens_details": {"reasoning_tokens": 0},
                 },
diff --git a/e2e-tests/llm-katan/llm_katan/server.py b/e2e-tests/llm-katan/llm_katan/server.py
@@ -160,7 +160,9 @@ async def chat_completions(request: ChatCompletionRequest, http_request: Request
 
         try:
             # Convert messages to dict format
-            messages = [{"role": msg.role, "content": msg.content} for msg in request.messages]
+            messages = [
+                {"role": msg.role, "content": msg.content} for msg in request.messages
+            ]
 
             # Update metrics
             metrics["total_requests"] += 1
@@ -201,7 +203,9 @@ async def generate_stream():
                 response_time = time.time() - start_time
                 metrics["response_times"].append(response_time)
                 if "choices" in response and response["choices"]:
-                    generated_text = response["choices"][0].get("message", {}).get("content", "")
+                    generated_text = (
+                        response["choices"][0].get("message", {}).get("content", "")
+                    )
                     token_count = len(generated_text.split())  # Rough token estimate
                     metrics["total_tokens_generated"] += token_count