Deploy to separate namespace

seans3 · seans3 · commit 9b9df1316556 · 2025-09-10T15:14:40.000Z
diff --git a/AI/vllm-deployment/README.md b/AI/vllm-deployment/README.md
@@ -36,31 +36,37 @@ This example demonstrates how to deploy a server for AI inference using [vLLM](h
 
 ## Detailed Steps & Explanation
 
-1. Ensure Hugging Face permissions to retrieve model:
+1. Create the namespace:
+
+```bash
+kubectl apply -f vllm-namespace.yaml
+```
+
+2. Ensure Hugging Face permissions to retrieve model:
 
 ```bash
 # Env var HF_TOKEN contains hugging face account token
-kubectl create secret generic hf-secret \
+kubectl create secret generic hf-secret -n vllm-example \
   --from-literal=hf_token=$HF_TOKEN
 ```
 
-2. Apply vLLM server:
+3. Apply vLLM server:
 
 ```bash
-kubectl apply -f vllm-deployment.yaml
+kubectl apply -f vllm-deployment.yaml -n vllm-example
 ```
 
   - Wait for deployment to reconcile, creating vLLM pod(s):
 
 ```bash
-kubectl wait --for=condition=Available --timeout=900s deployment/vllm-gemma-deployment
-kubectl get pods -l app=gemma-server -w
+kubectl wait --for=condition=Available --timeout=900s deployment/vllm-gemma-deployment -n vllm-example
+kubectl get pods -l app=gemma-server -w -n vllm-example
 ```
 
   - View vLLM pod logs:
 
 ```bash
-kubectl logs -f -l app=gemma-server
+kubectl logs -f -l app=gemma-server -n vllm-example
 ```
 
 Expected output:
@@ -77,11 +83,11 @@ Expected output:
 ...
 ```
 
-3. Create service:
+4. Create service:
 
 ```bash
 # ClusterIP service on port 8080 in front of vllm deployment
-kubectl apply -f vllm-service.yaml
+kubectl apply -f vllm-service.yaml -n vllm-example
 ```
 
 ## Verification / Seeing it Work
@@ -90,18 +96,18 @@ kubectl apply -f vllm-service.yaml
 
 ```bash
 # Forward a local port (e.g., 8080) to the service port (e.g., 8080)
-kubectl port-forward service/vllm-service 8080:8080
+kubectl port-forward service/vllm-service 8080:8080 -n vllm-example
 ```
 
 2. Send request to local forwarding port:
 
 ```bash
 curl -X POST http://localhost:8080/v1/chat/completions \
 -H "Content-Type: application/json" \
--d '{
-  "model": "google/gemma-3-1b-it",
-  "messages": [{"role": "user", "content": "Explain Quantum Computing in simple terms."}],
-  "max_tokens": 100
+-d '{ \
+  "model": "google/gemma-3-1b-it", \
+  "messages": [{"role": "user", "content": "Explain Quantum Computing in simple terms." }], \
+  "max_tokens": 100 \
 }'
 ```
 
@@ -151,9 +157,10 @@ Node selectors make sure vLLM pods land on Nodes with the correct GPU, and they
 ## Cleanup
 
 ```bash
-kubectl delete -f vllm-service.yaml
-kubectl delete -f vllm-deployment.yaml
-kubectl delete -f secret/hf_secret
+kubectl delete -f vllm-service.yaml -n vllm-example
+kubectl delete -f vllm-deployment.yaml -n vllm-example
+kubectl delete secret hf-secret -n vllm-example
+kubectl delete -f vllm-namespace.yaml
 ```
 
 ---
diff --git a/AI/vllm-deployment/vllm-deployment.yaml b/AI/vllm-deployment/vllm-deployment.yaml
@@ -2,6 +2,7 @@ apiVersion: apps/v1
 kind: Deployment
 metadata:
   name: vllm-gemma-deployment
+  namespace: vllm-example
 spec:
   replicas: 1
   selector:
diff --git a/AI/vllm-deployment/vllm-namespace.yaml b/AI/vllm-deployment/vllm-namespace.yaml
@@ -0,0 +1,4 @@
+apiVersion: v1
+kind: Namespace
+metadata:
+  name: vllm-example
diff --git a/AI/vllm-deployment/vllm-service.yaml b/AI/vllm-deployment/vllm-service.yaml
@@ -2,6 +2,7 @@ apiVersion: v1
 kind: Service
 metadata:
   name: vllm-service
+  namespace: vllm-example
 spec:
   selector:
     app: gemma-server