Add real-time speech recognition example for SenseVoice. (#2197)

Fangjun Kuang · GitHub
Commit 53518efd2fe70f49b86f180a4e5b49fdc374da82 53518efd 1 parent 4a833a75
python-api-examples/simulate-streaming-sense-voice-microphone.py
sherpa-onnx/python/sherpa_onnx/display.py
--- a/python-api-examples/simulate-streaming-sense-voice-microphone.py 0 → 100755
查看文件 @53518ef
+++ b/python-api-examples/simulate-streaming-sense-voice-microphone.py 0 → 100755
查看文件 @53518ef
+#!/usr/bin/env python3
+#
+# Copyright (c)  2025  Xiaomi Corporation
+
+"""
+This file demonstrates how to use sherpa-onnx Python APIs
+with VAD and non-streaming SenseVoice for real-time speech recognition
+from a microphone.
+
+Usage:
+
+
+wget https://github.com/snakers4/silero-vad/raw/master/src/silero_vad/data/silero_vad.onnx
+
+./python-api-examples/simulate-streaming-sense-voice-microphone.py  \
+  --silero-vad-model=./silero_vad.onnx \
+  --sense-voice=./sherpa-onnx-sense-voice-zh-en-ja-ko-yue-2024-07-17/model.onnx \
+  --tokens=./sherpa-onnx-sense-voice-zh-en-ja-ko-yue-2024-07-17/tokens.txt
+"""
+import argparse
+import queue
+import sys
+import threading
+import time
+from pathlib import Path
+
+import numpy as np
+
+try:
+    import sounddevice as sd
+except ImportError:
+    print("Please install sounddevice first. You can use")
+    print()
+    print("  pip install sounddevice")
+    print()
+    print("to install it")
+    sys.exit(-1)
+
+import sherpa_onnx
+
+killed = False
+recording_thread = None
+sample_rate = 16000  # Please don't change it
+
+# buffer saves audio samples to be played
+samples_queue = queue.Queue()
+
+
+def get_args():
+    parser = argparse.ArgumentParser(
+        formatter_class=argparse.ArgumentDefaultsHelpFormatter
+    )
+
+    parser.add_argument(
+        "--silero-vad-model",
+        type=str,
+        required=True,
+        help="Path to silero_vad.onnx",
+    )
+
+    parser.add_argument(
+        "--tokens",
+        type=str,
+        help="Path to tokens.txt",
+    )
+
+    parser.add_argument(
+        "--sense-voice",
+        default="",
+        type=str,
+        help="Path to the model.onnx from SenseVoice",
+    )
+
+    parser.add_argument(
+        "--num-threads",
+        type=int,
+        default=1,
+        help="Number of threads for neural network computation",
+    )
+
+    parser.add_argument(
+        "--hr-dict-dir",
+        type=str,
+        default="",
+        help="If not empty, it is the jieba dict directory for homophone replacer",
+    )
+
+    parser.add_argument(
+        "--hr-lexicon",
+        type=str,
+        default="",
+        help="If not empty, it is the lexicon.txt for homophone replacer",
+    )
+
+    parser.add_argument(
+        "--hr-rule-fsts",
+        type=str,
+        default="",
+        help="If not empty, it is the replace.fst for homophone replacer",
+    )
+
+    return parser.parse_args()
+
+
+def assert_file_exists(filename: str):
+    assert Path(filename).is_file(), (
+        f"{filename} does not exist!\n"
+        "Please refer to "
+        "https://k2-fsa.github.io/sherpa/onnx/pretrained_models/index.html to download it"
+    )
+
+
+def create_recognizer(args) -> sherpa_onnx.OfflineRecognizer:
+    assert_file_exists(args.sense_voice)
+    recognizer = sherpa_onnx.OfflineRecognizer.from_sense_voice(
+        model=args.sense_voice,
+        tokens=args.tokens,
+        num_threads=args.num_threads,
+        use_itn=False,
+        debug=False,
+        hr_dict_dir=args.hr_dict_dir,
+        hr_rule_fsts=args.hr_rule_fsts,
+        hr_lexicon=args.hr_lexicon,
+    )
+
+    return recognizer
+
+
+def start_recording():
+    # You can use any value you like for samples_per_read
+    samples_per_read = int(0.1 * sample_rate)  # 0.1 second = 100 ms
+
+    with sd.InputStream(channels=1, dtype="float32", samplerate=sample_rate) as s:
+        while not killed:
+            samples, _ = s.read(samples_per_read)  # a blocking read
+            samples = samples.reshape(-1)
+            samples = np.copy(samples)
+            samples_queue.put(samples)
+
+
+def main():
+    devices = sd.query_devices()
+    if len(devices) == 0:
+        print("No microphone devices found")
+        sys.exit(0)
+
+    print(devices)
+
+    # If you want to select a different input device, please use
+    # sd.default.device[0] = xxx
+    # where xxx is the device number
+
+    default_input_device_idx = sd.default.device[0]
+    print(f'Use default device: {devices[default_input_device_idx]["name"]}')
+
+    args = get_args()
+    assert_file_exists(args.tokens)
+    assert_file_exists(args.silero_vad_model)
+
+    assert args.num_threads > 0, args.num_threads
+
+    print("Creating recognizer. Please wait...")
+    recognizer = create_recognizer(args)
+
+    config = sherpa_onnx.VadModelConfig()
+    config.silero_vad.model = args.silero_vad_model
+    config.silero_vad.min_silence_duration = 0.25
+    config.sample_rate = sample_rate
+
+    window_size = config.silero_vad.window_size
+
+    vad = sherpa_onnx.VoiceActivityDetector(config, buffer_size_in_seconds=100)
+
+    print("Started! Please speak")
+
+    buffer = []
+
+    global recording_thread
+    recording_thread = threading.Thread(target=start_recording)
+    recording_thread.start()
+
+    display = sherpa_onnx.Display()
+
+    started = False
+    started_time = None
+
+    while not killed:
+        samples = samples_queue.get()  # a blocking read
+
+        buffer = np.concatenate([buffer, samples])
+        offset = 0
+        while offset + window_size < samples.shape[0]:
+            vad.accept_waveform(samples[offset : offset + window_size])
+            if not started and vad.is_speech_detected():
+                started = True
+                started_time = time.time()
+            offset += window_size
+
+        if not started:
+            buffer = buffer[-10 * window_size :]
+
+        if started and time.time() - started_time > 0.2:
+            stream = recognizer.create_stream()
+            stream.accept_waveform(sample_rate, buffer)
+            recognizer.decode_stream(stream)
+            text = stream.result.text.strip()
+            if text:
+                display.update_text(text)
+                display.display()
+
+            started_time = time.time()
+
+        while not vad.empty():
+            # In general, this while loop is executed only once
+            stream = recognizer.create_stream()
+            stream.accept_waveform(sample_rate, vad.front.samples)
+
+            vad.pop()
+            recognizer.decode_stream(stream)
+
+            text = stream.result.text.strip()
+
+            display.update_text(text)
+
+            buffer = []
+            started = False
+            started_time = None
+
+            display.finalize_current_sentence()
+            display.display()
+
+
+if __name__ == "__main__":
+    try:
+        main()
+    except KeyboardInterrupt:
+        killed = True
+        if recording_thread:
+            recording_thread.join()
+        print("\nCaught Ctrl + C. Exiting")
--- a/sherpa-onnx/python/sherpa_onnx/display.py
查看文件 @53518ef
+++ b/sherpa-onnx/python/sherpa_onnx/display.py
查看文件 @53518ef
 # Copyright (c)  2025  Xiaomi Corporation
 import os
-from time import gmtime, strftime
+from time import localtime, strftime
 def get_current_time():
-    return strftime("%Y-%m-%d %H:%M:%S", gmtime())
+    return strftime("%Y-%m-%d %H:%M:%S", localtime())
 def clear_console():