Add Swift API for ten-vad (#2387)

Fangjun Kuang · GitHub
Commit 0514aeeb0cf6c106fca0a512f571d5299e846fb0 0514aeeb 1 parent 7f1d71fe
.github/scripts/test-swift.sh
swift-api-examples/.gitignore
swift-api-examples/SherpaOnnx.swift
swift-api-examples/generate-subtitles.swift
swift-api-examples/run-generate-subtitles-ten-vad.sh
--- a/.github/scripts/test-swift.sh
查看文件 @0514aee
+++ b/.github/scripts/test-swift.sh
查看文件 @0514aee
@@ -71,7 +71,11 @@ curl -SL -O https://huggingface.co/csukuangfj/test-data/resolve/main/Obama.wav
 ls -lh
 popd
 
+ ./run-generate-subtitles-ten-vad.sh
+ rm -rf *.onnx
+ 
 ./run-generate-subtitles.sh
+ rm -rf *.onnx
 
 ls -lh /Users/fangjun/Desktop
 cat /Users/fangjun/Desktop/Obama.srt
--- a/swift-api-examples/.gitignore
查看文件 @0514aee
+++ b/swift-api-examples/.gitignore
查看文件 @0514aee
 decode-file
 decode-file-non-streaming
 generate-subtitles
+ generate-subtitles-ten-vad
 spoken-language-identification
 tts-vits
 vits-vctk
--- a/swift-api-examples/SherpaOnnx.swift
查看文件 @0514aee
+++ b/swift-api-examples/SherpaOnnx.swift
查看文件 @0514aee
@@ -386,6 +386,22 @@ func sherpaOnnxOfflineWhisperModelConfig(
   )
 }
 
+ func sherpaOnnxOfflineCanaryModelConfig(
+   encoder: String = "",
+   decoder: String = "",
+   srcLang: String = "en",
+   tgtLang: String = "en",
+   usePnc: Bool = true
+ ) -> SherpaOnnxOfflineCanaryModelConfig {
+   return SherpaOnnxOfflineCanaryModelConfig(
+     encoder: toCPointer(encoder),
+     decoder: toCPointer(decoder),
+     src_lang: toCPointer(srcLang),
+     tgt_lang: toCPointer(tgtLang),
+     use_pnc: usePnc ? 1 : 0
+   )
+ }
+ 
 func sherpaOnnxOfflineFireRedAsrModelConfig(
   encoder: String = "",
   decoder: String = ""
@@ -459,7 +475,8 @@ func sherpaOnnxOfflineModelConfig(
   fireRedAsr: SherpaOnnxOfflineFireRedAsrModelConfig = sherpaOnnxOfflineFireRedAsrModelConfig(),
   dolphin: SherpaOnnxOfflineDolphinModelConfig = sherpaOnnxOfflineDolphinModelConfig(),
   zipformerCtc: SherpaOnnxOfflineZipformerCtcModelConfig =
-     sherpaOnnxOfflineZipformerCtcModelConfig()
+     sherpaOnnxOfflineZipformerCtcModelConfig(),
+   canary: SherpaOnnxOfflineCanaryModelConfig = sherpaOnnxOfflineCanaryModelConfig()
 ) -> SherpaOnnxOfflineModelConfig {
   return SherpaOnnxOfflineModelConfig(
     transducer: transducer,
@@ -479,7 +496,8 @@ func sherpaOnnxOfflineModelConfig(
     moonshine: moonshine,
     fire_red_asr: fireRedAsr,
     dolphin: dolphin,
-     zipformer_ctc: zipformerCtc
+     zipformer_ctc: zipformerCtc,
+     canary: canary
   )
 }
 
@@ -607,10 +625,14 @@ class SherpaOnnxOfflineRecognizer {
 
     return SherpaOnnxOfflineRecongitionResult(result: result)
   }
+ 
+   func setConfig(config: UnsafePointer<SherpaOnnxOfflineRecognizerConfig>!) {
+     SherpaOnnxOfflineRecognizerSetConfig(recognizer, config)
+   }
 }
 
 func sherpaOnnxSileroVadModelConfig(
-   model: String,
+   model: String = "",
   threshold: Float = 0.5,
   minSilenceDuration: Float = 0.25,
   minSpeechDuration: Float = 0.5,
@@ -627,19 +649,39 @@ func sherpaOnnxSileroVadModelConfig(
   )
 }
 
+ func sherpaOnnxTenVadModelConfig(
+   model: String = "",
+   threshold: Float = 0.5,
+   minSilenceDuration: Float = 0.25,
+   minSpeechDuration: Float = 0.5,
+   windowSize: Int = 256,
+   maxSpeechDuration: Float = 5.0
+ ) -> SherpaOnnxTenVadModelConfig {
+   return SherpaOnnxTenVadModelConfig(
+     model: toCPointer(model),
+     threshold: threshold,
+     min_silence_duration: minSilenceDuration,
+     min_speech_duration: minSpeechDuration,
+     window_size: Int32(windowSize),
+     max_speech_duration: maxSpeechDuration
+   )
+ }
+ 
 func sherpaOnnxVadModelConfig(
-   sileroVad: SherpaOnnxSileroVadModelConfig,
+   sileroVad: SherpaOnnxSileroVadModelConfig = sherpaOnnxSileroVadModelConfig(),
   sampleRate: Int32 = 16000,
   numThreads: Int = 1,
   provider: String = "cpu",
-   debug: Int = 0
+   debug: Int = 0,
+   tenVad: SherpaOnnxTenVadModelConfig = sherpaOnnxTenVadModelConfig()
 ) -> SherpaOnnxVadModelConfig {
   return SherpaOnnxVadModelConfig(
     silero_vad: sileroVad,
     sample_rate: sampleRate,
     num_threads: Int32(numThreads),
     provider: toCPointer(provider),
-     debug: Int32(debug)
+     debug: Int32(debug),
+     ten_vad: tenVad
   )
 }
 
--- a/swift-api-examples/generate-subtitles.swift
查看文件 @0514aee
+++ b/swift-api-examples/generate-subtitles.swift
查看文件 @0514aee
@@ -156,11 +156,35 @@ func run() {
   assert(audioFormat.channelCount == 1)
   assert(audioFormat.commonFormat == AVAudioCommonFormat.pcmFormatFloat32)
 
-   let sileroVadConfig = sherpaOnnxSileroVadModelConfig(
-     model: "./silero_vad.onnx"
-   )
+   var sileroVadConfig = sherpaOnnxSileroVadModelConfig()
+   var tenVadConfig = sherpaOnnxTenVadModelConfig()
+ 
+   var windowSize = 0
+ 
+   if FileManager.default.fileExists(atPath: "./silero_vad.onnx") {
+     sileroVadConfig = sherpaOnnxSileroVadModelConfig(
+       model: "./silero_vad.onnx",
+       threshold: 0.25,
+       windowSize: 512
+     )
+     windowSize = 512
+     print("Use silero-vad")
+   } else if FileManager.default.fileExists(atPath: "./ten-vad.onnx") {
+     tenVadConfig = sherpaOnnxTenVadModelConfig(
+       model: "./ten-vad.onnx",
+       threshold: 0.25,
+       windowSize: 256
+     )
+     windowSize = 256
+     print("Use ten-vad")
+   } else {
+     print("Please provide ./silero_vad.onnx or ./ten-vad.onnx")
+     return
+   }
+ 
+   var vadModelConfig = sherpaOnnxVadModelConfig(
+     sileroVad: sileroVadConfig, tenVad: tenVadConfig)
 
-   var vadModelConfig = sherpaOnnxVadModelConfig(sileroVad: sileroVadConfig)
   let vad = SherpaOnnxVoiceActivityDetectorWrapper(
     config: &vadModelConfig, buffer_size_in_seconds: 120)
 
@@ -170,8 +194,6 @@ func run() {
   try! audioFile.read(into: audioFileBuffer!)
   var array: [Float]! = audioFileBuffer?.array()
 
-   let windowSize = Int(vadModelConfig.silero_vad.window_size)
- 
   var segments: [SpeechSegment] = []
 
   for offset in stride(from: 0, to: array.count, by: windowSize) {
@@ -180,7 +202,6 @@ func run() {
   }
 
   vad.flush()
-   var index: Int = 0
   while !vad.isEmpty() {
     let s = vad.front()
     vad.pop()
--- a/swift-api-examples/run-generate-subtitles-ten-vad.sh 0 → 100755
查看文件 @0514aee
+++ b/swift-api-examples/run-generate-subtitles-ten-vad.sh 0 → 100755
查看文件 @0514aee
+ #!/usr/bin/env bash
+ 
+ set -ex
+ 
+ if [ ! -d ../build-swift-macos ]; then
+   echo "Please run ../build-swift-macos.sh first!"
+   exit 1
+ fi
+ 
+ if [ ! -d ./sherpa-onnx-whisper-tiny.en ]; then
+   echo "Please download the pre-trained model for testing."
+   echo "You can refer to"
+   echo ""
+   echo "https://k2-fsa.github.io/sherpa/onnx/pretrained_models/whisper/tiny.en.html"
+   echo ""
+   echo "for help"
+ 
+   wget -q https://github.com/k2-fsa/sherpa-onnx/releases/download/asr-models/sherpa-onnx-whisper-tiny.en.tar.bz2
+   tar xvf sherpa-onnx-whisper-tiny.en.tar.bz2
+   rm sherpa-onnx-whisper-tiny.en.tar.bz2
+   ls -lh sherpa-onnx-whisper-tiny.en
+ fi
+ if [ ! -f ./ten-vad.onnx ]; then
+   echo "downloading ten-vad"
+   wget -q https://github.com/k2-fsa/sherpa-onnx/releases/download/asr-models/ten-vad.onnx
+ fi
+ 
+ if [ ! -e ./generate-subtitles-ten-vad ]; then
+   # Note: We use -lc++ to link against libc++ instead of libstdc++
+   swiftc \
+     -lc++ \
+     -I ../build-swift-macos/install/include \
+     -import-objc-header ./SherpaOnnx-Bridging-Header.h \
+     ./generate-subtitles.swift  ./SherpaOnnx.swift \
+     -L ../build-swift-macos/install/lib/ \
+     -l sherpa-onnx \
+     -l onnxruntime \
+     -o generate-subtitles-ten-vad
+ 
+   strip generate-subtitles-ten-vad
+ else
+   echo "./generate-subtitles-ten-vad exists - skip building"
+ fi
+ 
+ export DYLD_LIBRARY_PATH=$PWD/../build-swift-macos/install/lib:$DYLD_LIBRARY_PATH
+ ./generate-subtitles-ten-vad