examples : add VAD support to whisper-cli [no ci]

danbev · danbev · commit 9f0ed3d8de12 · 2025-04-25T07:26:24.000+02:00
diff --git a/examples/cli/cli.cpp b/examples/cli/cli.cpp
@@ -79,11 +79,13 @@ struct whisper_params {
     bool use_gpu         = true;
     bool flash_attn      = false;
     bool suppress_nst    = false;
+    bool vad             = false;
 
     std::string language  = "en";
     std::string prompt;
     std::string font_path = "/System/Library/Fonts/Supplemental/Courier New Bold.ttf";
     std::string model     = "models/ggml-base.en.bin";
+    std::string vad_model = "";
     std::string grammar;
     std::string grammar_rule;
 
@@ -176,8 +178,10 @@ static bool whisper_params_parse(int argc, char ** argv, whisper_params & params
         else if (arg == "-nt"   || arg == "--no-timestamps")   { params.no_timestamps   = true; }
         else if (arg == "-l"    || arg == "--language")        { params.language        = whisper_param_turn_lowercase(ARGV_NEXT); }
         else if (arg == "-dl"   || arg == "--detect-language") { params.detect_language = true; }
+        else if (arg == "-v"    || arg == "--vad")             { params.vad             = true; }
         else if (                  arg == "--prompt")          { params.prompt          = ARGV_NEXT; }
         else if (arg == "-m"    || arg == "--model")           { params.model           = ARGV_NEXT; }
+        else if (arg == "-vm"   || arg == "--vad-model")       { params.vad_model       = ARGV_NEXT; }
         else if (arg == "-f"    || arg == "--file")            { params.fname_inp.emplace_back(ARGV_NEXT); }
         else if (arg == "-oved" || arg == "--ov-e-device")     { params.openvino_encode_device = ARGV_NEXT; }
         else if (arg == "-dtw"  || arg == "--dtw")             { params.dtw             = ARGV_NEXT; }
@@ -245,8 +249,10 @@ static void whisper_print_usage(int /*argc*/, char ** argv, const whisper_params
     fprintf(stderr, "  -nt,       --no-timestamps     [%-7s] do not print timestamps\n",                        params.no_timestamps ? "true" : "false");
     fprintf(stderr, "  -l LANG,   --language LANG     [%-7s] spoken language ('auto' for auto-detect)\n",       params.language.c_str());
     fprintf(stderr, "  -dl,       --detect-language   [%-7s] exit after automatically detecting language\n",    params.detect_language ? "true" : "false");
+    fprintf(stderr, "  -v,        --vad               [%-7s] enable Voice Activity Detection (VAD)\n",          params.vad ? "true" : "false");
     fprintf(stderr, "             --prompt PROMPT     [%-7s] initial prompt (max n_text_ctx/2 tokens)\n",       params.prompt.c_str());
     fprintf(stderr, "  -m FNAME,  --model FNAME       [%-7s] model path\n",                                     params.model.c_str());
+    fprintf(stderr, "  -vm FNAME, --vad-model FNAME   [%-7s] Voice Activity Detection (VAD) model path\n",      params.vad_model.c_str());
     fprintf(stderr, "  -f FNAME,  --file FNAME        [%-7s] input audio file path\n",                            "");
     fprintf(stderr, "  -oved D,   --ov-e-device DNAME [%-7s] the OpenVINO device used for encode inference\n",  params.openvino_encode_device.c_str());
     fprintf(stderr, "  -dtw MODEL --dtw MODEL         [%-7s] compute token-level timestamps\n",                 params.dtw.c_str());
@@ -1154,8 +1160,12 @@ int main(int argc, char ** argv) {
 
             wparams.suppress_nst     = params.suppress_nst;
 
+            wparams.vad              = params.vad;
+            wparams.vad_model_path   = params.vad_model.c_str();
+
             whisper_print_user_data user_data = { &params, &pcmf32s, 0 };
 
+
             const auto & grammar_parsed = params.grammar_parsed;
             auto grammar_rules = grammar_parsed.c_rules();
 
diff --git a/examples/common.cpp b/examples/common.cpp
@@ -80,6 +80,10 @@ bool gpt_params_parse(int argc, char ** argv, gpt_params & params) {
             }
         } else if (arg == "-tt" || arg == "--token_test") {
             params.token_test = get_next_arg(i, argc, argv, arg, params);
+        } else if (arg == "--vad") {
+            params.vad = true;
+        } else if (arg == "-vm" || arg == "--vad-model") {
+            params.vad_model = get_next_arg(i, argc, argv, arg, params);
         }
         else {
             fprintf(stderr, "error: unknown argument: %s\n", arg.c_str());
diff --git a/examples/common.h b/examples/common.h
@@ -39,6 +39,9 @@ struct gpt_params {
 
     bool    interactive      = false;
     int32_t interactive_port = -1;
+
+    bool        vad         = false;  // Enable VAD
+    std::string vad_model   = "";     // VAD model path
 };
 
 bool gpt_params_parse(int argc, char ** argv, gpt_params & params);

Original file line number	Diff line number	Diff line change
`@@ -80,6 +80,10 @@ bool gpt_params_parse(int argc, char ** argv, gpt_params & params) {`
`80`	`80`	`}`
`81`	`81`	`} else if (arg == "-tt" \|\| arg == "--token_test") {`
`82`	`82`	`params.token_test = get_next_arg(i, argc, argv, arg, params);`
	`83`	`+ } else if (arg == "--vad") {`
	`84`	`+ params.vad = true;`
	`85`	`+ } else if (arg == "-vm" \|\| arg == "--vad-model") {`
	`86`	`+ params.vad_model = get_next_arg(i, argc, argv, arg, params);`
`83`	`87`	`}`
`84`	`88`	`else {`
`85`	`89`	`fprintf(stderr, "error: unknown argument: %s\n", arg.c_str());`