huggingface
diff --git a/‎packages/inference/src/snippets/getInferenceSnippets.ts
Lines changed: 32 additions & 3 deletions b/‎packages/inference/src/snippets/getInferenceSnippets.ts
Lines changed: 32 additions & 3 deletions
diff --git a/‎packages/inference/src/snippets/templates/python/requests/conversational.jinja
Lines changed: 1 addition & 1 deletion b/‎packages/inference/src/snippets/templates/python/requests/conversational.jinja
Lines changed: 1 addition & 1 deletion
diff --git a/‎packages/inference/src/snippets/templates/python/requests/conversationalStream.jinja
Lines changed: 1 addition & 1 deletion b/‎packages/inference/src/snippets/templates/python/requests/conversationalStream.jinja
Lines changed: 1 addition & 1 deletion
diff --git a/‎packages/inference/src/snippets/templates/sh/curl/conversational.jinja
Lines changed: 1 addition & 1 deletion b/‎packages/inference/src/snippets/templates/sh/curl/conversational.jinja
Lines changed: 1 addition & 1 deletion
diff --git a/‎packages/inference/src/snippets/templates/sh/curl/conversationalStream.jinja
Lines changed: 1 addition & 1 deletion b/‎packages/inference/src/snippets/templates/sh/curl/conversationalStream.jinja
Lines changed: 1 addition & 1 deletion
diff --git a/‎packages/tasks-gen/snippets-fixtures/bill-to-param/js/openai/0.hf-inference.js
Lines changed: 2 additions & 2 deletions b/‎packages/tasks-gen/snippets-fixtures/bill-to-param/js/openai/0.hf-inference.js
Lines changed: 2 additions & 2 deletions
diff --git a/‎packages/tasks-gen/snippets-fixtures/bill-to-param/python/openai/0.hf-inference.py
Lines changed: 2 additions & 2 deletions b/‎packages/tasks-gen/snippets-fixtures/bill-to-param/python/openai/0.hf-inference.py
Lines changed: 2 additions & 2 deletions
diff --git a/‎packages/tasks-gen/snippets-fixtures/bill-to-param/python/requests/0.hf-inference.py
Lines changed: 2 additions & 2 deletions b/‎packages/tasks-gen/snippets-fixtures/bill-to-param/python/requests/0.hf-inference.py
Lines changed: 2 additions & 2 deletions
diff --git a/‎packages/tasks-gen/snippets-fixtures/bill-to-param/sh/curl/0.hf-inference.sh
Lines changed: 2 additions & 2 deletions b/‎packages/tasks-gen/snippets-fixtures/bill-to-param/sh/curl/0.hf-inference.sh
Lines changed: 2 additions & 2 deletions
diff --git a/‎packages/tasks-gen/snippets-fixtures/conversational-llm-non-stream/js/openai/0.hf-inference.js
Lines changed: 2 additions & 2 deletions b/‎packages/tasks-gen/snippets-fixtures/conversational-llm-non-stream/js/openai/0.hf-inference.js
Lines changed: 2 additions & 2 deletions
@@ -49,6 +49,7 @@ interface TemplateParams {
 	fullUrl?: string;
 	inputs?: object;
 	providerInputs?: object;
+	autoInputs?: object;
 	model?: ModelDataMinimal;
 	provider?: InferenceProviderOrPolicy;
 	providerModelId?: string;
@@ -202,12 +203,28 @@ const snippetGenerator = (templateName: string, inputPreparationFn?: InputPrepar
 			}
 		}
 
+		// Inputs for the "auto" route is strictly the same as "inputs", except the model includes the provider
+		// If not "auto" route, use the providerInputs
+		const autoInputs =
+			provider !== "auto" && !opts?.endpointUrl && !opts?.directRequest
+				? {
+						...inputs,
+						model: `${model.id}:${provider}`,
+				  }
+				: providerInputs;
+
 		/// Prepare template injection data
 		const params: TemplateParams = {
 			accessToken: accessTokenOrPlaceholder,
 			authorizationHeader: (request.info.headers as Record<string, string>)?.Authorization,
-			baseUrl: removeSuffix(request.url, "/chat/completions"),
-			fullUrl: request.url,
+			baseUrl:
+				task === "conversational" && !opts?.endpointUrl && !opts?.directRequest
+					? HF_ROUTER_AUTO_ENDPOINT
+					: removeSuffix(request.url, "/chat/completions"),
+			fullUrl:
+				task === "conversational" && !opts?.endpointUrl && !opts?.directRequest
+					? HF_ROUTER_AUTO_ENDPOINT + "/chat/completions"
+					: request.url,
 			inputs: {
 				asObj: inputs,
 				asCurlString: formatBody(inputs, "curl"),
@@ -222,9 +239,21 @@ const snippetGenerator = (templateName: string, inputPreparationFn?: InputPrepar
 				asPythonString: formatBody(providerInputs, "python"),
 				asTsString: formatBody(providerInputs, "ts"),
 			},
+			autoInputs: {
+				asObj: autoInputs,
+				asCurlString: formatBody(autoInputs, "curl"),
+				asJsonString: formatBody(autoInputs, "json"),
+				asPythonString: formatBody(autoInputs, "python"),
+				asTsString: formatBody(autoInputs, "ts"),
+			},
 			model,
 			provider,
-			providerModelId: providerModelId ?? model.id,
+			providerModelId:
+				task === "conversational" && !opts?.endpointUrl && !opts?.directRequest
+					? provider !== "auto"
+						? `${model.id}:${provider}` // e.g. "moonshotai/Kimi-K2-Instruct:groq"
+						: model.id
+					: providerModelId ?? model.id,
 			billTo: opts?.billTo,
 			endpointUrl: opts?.endpointUrl,
 		};
 
@@ -3,7 +3,7 @@ def query(payload):
     return response.json()
 
 response = query({
-{{ providerInputs.asJsonString }}
+{{ autoInputs.asJsonString }}
 })
 
 print(response["choices"][0]["message"])
@@ -8,7 +8,7 @@ def query(payload):
         yield json.loads(line.decode("utf-8").lstrip("data:").rstrip("/n"))
 
 chunks = query({
-{{ providerInputs.asJsonString }},
+{{ autoInputs.asJsonString }},
     "stream": True,
 })
 
 
@@ -5,6 +5,6 @@ curl {{ fullUrl }} \
     -H 'X-HF-Bill-To: {{ billTo }}' \
 {% endif %}
     -d '{
-{{ providerInputs.asCurlString }},
+{{ autoInputs.asCurlString }},
         "stream": false
     }'
@@ -5,6 +5,6 @@ curl {{ fullUrl }} \
     -H 'X-HF-Bill-To: {{ billTo }}' \
 {% endif %}
     -d '{
-{{ providerInputs.asCurlString }},
+{{ autoInputs.asCurlString }},
         "stream": true
     }'
@@ -1,15 +1,15 @@
 import { OpenAI } from "openai";
 
 const client = new OpenAI({
-	baseURL: "https://router.huggingface.co/hf-inference/models/meta-llama/Llama-3.1-8B-Instruct/v1",
+	baseURL: "https://router.huggingface.co/v1",
 	apiKey: process.env.HF_TOKEN,
 	defaultHeaders: {
 		"X-HF-Bill-To": "huggingface" 
 	}
 });
 
 const chatCompletion = await client.chat.completions.create({
-	model: "meta-llama/Llama-3.1-8B-Instruct",
+	model: "meta-llama/Llama-3.1-8B-Instruct:hf-inference",
     messages: [
         {
             role: "user",
 
@@ -2,15 +2,15 @@
 from openai import OpenAI
 
 client = OpenAI(
-    base_url="https://router.huggingface.co/hf-inference/models/meta-llama/Llama-3.1-8B-Instruct/v1",
+    base_url="https://router.huggingface.co/v1",
     api_key=os.environ["HF_TOKEN"],
     default_headers={
         "X-HF-Bill-To": "huggingface"
     }
 )
 
 completion = client.chat.completions.create(
-    model="meta-llama/Llama-3.1-8B-Instruct",
+    model="meta-llama/Llama-3.1-8B-Instruct:hf-inference",
     messages=[
         {
             "role": "user",
 
@@ -1,7 +1,7 @@
 import os
 import requests
 
-API_URL = "https://router.huggingface.co/hf-inference/models/meta-llama/Llama-3.1-8B-Instruct/v1/chat/completions"
+API_URL = "https://router.huggingface.co/v1/chat/completions"
 headers = {
     "Authorization": f"Bearer {os.environ['HF_TOKEN']}",
     "X-HF-Bill-To": "huggingface"
@@ -18,7 +18,7 @@ def query(payload):
             "content": "What is the capital of France?"
         }
     ],
-    "model": "meta-llama/Llama-3.1-8B-Instruct"
+    "model": "meta-llama/Llama-3.1-8B-Instruct:hf-inference"
 })
 
 print(response["choices"][0]["message"])
@@ -1,4 +1,4 @@
-curl https://router.huggingface.co/hf-inference/models/meta-llama/Llama-3.1-8B-Instruct/v1/chat/completions \
+curl https://router.huggingface.co/v1/chat/completions \
     -H "Authorization: Bearer $HF_TOKEN" \
     -H 'Content-Type: application/json' \
     -H 'X-HF-Bill-To: huggingface' \
@@ -9,6 +9,6 @@ curl https://router.huggingface.co/hf-inference/models/meta-llama/Llama-3.1-8B-I
                 "content": "What is the capital of France?"
             }
         ],
-        "model": "meta-llama/Llama-3.1-8B-Instruct",
+        "model": "meta-llama/Llama-3.1-8B-Instruct:hf-inference",
         "stream": false
     }'
@@ -1,12 +1,12 @@
 import { OpenAI } from "openai";
 
 const client = new OpenAI({
-	baseURL: "https://router.huggingface.co/hf-inference/models/meta-llama/Llama-3.1-8B-Instruct/v1",
+	baseURL: "https://router.huggingface.co/v1",
 	apiKey: process.env.HF_TOKEN,
 });
 
 const chatCompletion = await client.chat.completions.create({
-	model: "meta-llama/Llama-3.1-8B-Instruct",
+	model: "meta-llama/Llama-3.1-8B-Instruct:hf-inference",
     messages: [
         {
             role: "user",
Original file line number	Diff line number	Diff line change
`@@ -2,15 +2,15 @@`
`2`	`2`	`from openai import OpenAI`
`3`	`3`
`4`	`4`	`client = OpenAI(`
`5`		`- base_url="https://router.huggingface.co/hf-inference/models/meta-llama/Llama-3.1-8B-Instruct/v1",`
	`5`	`+ base_url="https://router.huggingface.co/v1",`
`6`	`6`	`api_key=os.environ["HF_TOKEN"],`
`7`	`7`	`default_headers={`
`8`	`8`	`"X-HF-Bill-To": "huggingface"`
`9`	`9`	`}`
`10`	`10`	`)`
`11`	`11`
`12`	`12`	`completion = client.chat.completions.create(`
`13`		`- model="meta-llama/Llama-3.1-8B-Instruct",`
	`13`	`+ model="meta-llama/Llama-3.1-8B-Instruct:hf-inference",`
`14`	`14`	`messages=[`
`15`	`15`	`{`
`16`	`16`	`"role": "user",`