server: add data: [DONE] to /chat/completions stream response

VoidIsVoid · Gimling · commit 3845ec9879a1 · 2024-09-13T23:55:33.000+08:00
diff --git a/examples/server/server.cpp b/examples/server/server.cpp
@@ -2986,6 +2986,8 @@ int main(int argc, char ** argv) {
                 }, [&](json error_data) {
                     server_sent_event(sink, "error", error_data);
                 });
+                static const std::string ev_done = "data: [DONE]\n\n";
+                sink.write(ev_done.data(), ev_done.size());
                 sink.done();
                 return true;
             };
diff --git a/examples/server/tests/features/steps/steps.py b/examples/server/tests/features/steps/steps.py
@@ -1020,6 +1020,8 @@ async def oai_chat_completions(user_prompt,
                             event_data = line.split(': ', 1)
                             assert event_data[0] == 'data', f'Bad event code received: ```{event_data}```'
                             chunk_raw = event_data[1]
+                            if chunk_raw == '[DONE]':
+                                continue
 
                             chunk = json.loads(chunk_raw)
                             assert len(chunk['choices']) == 1, f"no choices provided, line ```{line}```"
@@ -1322,14 +1324,16 @@ def start_server_background(context):
     if 'LLAMA_SERVER_BIN_PATH' in os.environ:
         context.server_path = os.environ['LLAMA_SERVER_BIN_PATH']
     server_listen_addr = context.server_fqdn
+    # server_listen_addr = "127.0.0.1"
     server_args = [
         '--host', server_listen_addr,
         '--port', context.server_port,
     ]
+    
     if context.model_file:
         server_args.extend(['--model', context.model_file])
-    if context.model_url:
-        server_args.extend(['--model-url', context.model_url])
+    # if context.model_url:
+    #     server_args.extend(['--model-url', context.model_url])
     if context.model_hf_repo:
         server_args.extend(['--hf-repo', context.model_hf_repo])
     if context.model_hf_file: