updated prompt:

franciscojavierarceo · franciscojavierarceo · commit 83cece1a088f · 2025-11-17T20:45:35.000-05:00
Signed-off-by: Francisco Javier Arceo &lt;farceo@redhat.com&gt;
diff --git a/src/llama_stack/providers/utils/memory/vector_store.py b/src/llama_stack/providers/utils/memory/vector_store.py
@@ -358,20 +358,43 @@ async def _rewrite_query_for_search(self, query: str) -> str:
 
         chat_model = None
         # Look for an LLM model (for chat completion)
-        for model in models_response.data:
-            if model.model_type == ModelType.llm:
-                chat_model = model.identifier
+        # Prefer local or non-cloud providers to avoid credential issues
+        llm_models = [m for m in models_response.data if m.model_type == ModelType.llm]
+
+        # Filter out models that are known to be embedding models (misclassified as LLM)
+        embedding_model_patterns = ["minilm", "embed", "embedding", "nomic-embed"]
+        llm_models = [
+            m for m in llm_models if not any(pattern in m.identifier.lower() for pattern in embedding_model_patterns)
+        ]
+
+        # Priority order: ollama (local), then OpenAI, then others
+        provider_priority = ["ollama", "openai", "gemini", "bedrock"]
+
+        for provider in provider_priority:
+            for model in llm_models:
+                model_id = model.identifier.lower()
+                if provider == "ollama" and "ollama/" in model_id:
+                    chat_model = model.identifier
+                    break
+                elif provider in model_id:
+                    chat_model = model.identifier
+                    break
+            if chat_model:
                 break
 
+        # Fallback: use first available LLM model if no preferred provider found
+        if not chat_model and llm_models:
+            chat_model = llm_models[0].identifier
+
         # If no suitable model found, raise an error
         if not chat_model:
             raise ValueError("No LLM model available for query rewriting")
 
-        rewrite_prompt = f"""Rewrite this search query to improve vector search results by expanding it with relevant synonyms and related terms while maintaining the original intent:
+        rewrite_prompt = f"""Expand this query with relevant synonyms and related terms. Return only the improved query, no explanations:
 
 {query}
 
-Rewritten query:"""
+Improved query:"""
 
         chat_request = OpenAIChatCompletionRequestWithExtraBody(
             model=chat_model,