Add Swift API for speech enhancement GTCRN models (#1989)

Fangjun Kuang · GitHub
Commit c12d1d88c0ed0e80c2ba3506eb660e6d03409650 c12d1d88 1 parent 802119db
.github/scripts/test-swift.sh
swift-api-examples/.gitignore
swift-api-examples/SherpaOnnx.swift
swift-api-examples/run-speech-enhancement-gtcrn.sh
swift-api-examples/speech-enhancement-gtcrn.swift
--- a/.github/scripts/test-swift.sh
查看文件 @c12d1d8
+++ b/.github/scripts/test-swift.sh
查看文件 @c12d1d8
@@ -7,6 +7,8 @@ echo "pwd: $PWD"
 cd swift-api-examples
 ls -lh
+./run-speech-enhancement-gtcrn.sh
+ls -lh *.wav
 ./run-fire-red-asr.sh
 rm -rf sherpa-onnx-fire-red-asr-*
--- a/swift-api-examples/.gitignore
查看文件 @c12d1d8
+++ b/swift-api-examples/.gitignore
查看文件 @c12d1d8
@@ -14,3 +14,4 @@ tts-matcha-zh
 tts-matcha-en
 tts-kokoro-en
 tts-kokoro-zh-en
+speech-enhancement-gtcrn
--- a/swift-api-examples/SherpaOnnx.swift
查看文件 @c12d1d8
+++ b/swift-api-examples/SherpaOnnx.swift
查看文件 @c12d1d8
@@ -1323,3 +1323,101 @@ class SherpaOnnxOfflineSpeakerDiarizationWrapper {
     return ans
   }
 }
+
+func sherpaOnnxOfflineSpeechDenoiserGtcrnModelConfig(model: String = "")
+  -> SherpaOnnxOfflineSpeechDenoiserGtcrnModelConfig
+{
+  return SherpaOnnxOfflineSpeechDenoiserGtcrnModelConfig(model: toCPointer(model))
+}
+
+func sherpaOnnxOfflineSpeechDenoiserModelConfig(
+  gtcrn: SherpaOnnxOfflineSpeechDenoiserGtcrnModelConfig =
+    sherpaOnnxOfflineSpeechDenoiserGtcrnModelConfig(),
+  numThreads: Int = 1,
+  provider: String = "cpu",
+  debug: Int = 0
+) -> SherpaOnnxOfflineSpeechDenoiserModelConfig {
+  return SherpaOnnxOfflineSpeechDenoiserModelConfig(
+    gtcrn: gtcrn,
+    num_threads: Int32(numThreads),
+    debug: Int32(debug),
+    provider: toCPointer(provider)
+  )
+}
+
+func sherpaOnnxOfflineSpeechDenoiserConfig(
+  model: SherpaOnnxOfflineSpeechDenoiserModelConfig =
+    sherpaOnnxOfflineSpeechDenoiserModelConfig()
+) -> SherpaOnnxOfflineSpeechDenoiserConfig {
+  return SherpaOnnxOfflineSpeechDenoiserConfig(
+    model: model)
+}
+
+class SherpaOnnxDenoisedAudioWrapper {
+  /// A pointer to the underlying counterpart in C
+  let audio: UnsafePointer<SherpaOnnxDenoisedAudio>!
+
+  init(audio: UnsafePointer<SherpaOnnxDenoisedAudio>!) {
+    self.audio = audio
+  }
+
+  deinit {
+    if let audio {
+      SherpaOnnxDestroyDenoisedAudio(audio)
+    }
+  }
+
+  var n: Int32 {
+    return audio.pointee.n
+  }
+
+  var sampleRate: Int32 {
+    return audio.pointee.sample_rate
+  }
+
+  var samples: [Float] {
+    if let p = audio.pointee.samples {
+      var samples: [Float] = []
+      for index in 0..<n {
+        samples.append(p[Int(index)])
+      }
+      return samples
+    } else {
+      let samples: [Float] = []
+      return samples
+    }
+  }
+
+  func save(filename: String) -> Int32 {
+    return SherpaOnnxWriteWave(audio.pointee.samples, n, sampleRate, toCPointer(filename))
+  }
+}
+
+class SherpaOnnxOfflineSpeechDenoiserWrapper {
+  /// A pointer to the underlying counterpart in C
+  let impl: OpaquePointer!
+
+  /// Constructor taking a model config
+  init(
+    config: UnsafePointer<SherpaOnnxOfflineSpeechDenoiserConfig>!
+  ) {
+    impl = SherpaOnnxCreateOfflineSpeechDenoiser(config)
+  }
+
+  deinit {
+    if let impl {
+      SherpaOnnxDestroyOfflineSpeechDenoiser(impl)
+    }
+  }
+
+  func run(samples: [Float], sampleRate: Int) -> SherpaOnnxDenoisedAudioWrapper {
+    let audio: UnsafePointer<SherpaOnnxDenoisedAudio>? = SherpaOnnxOfflineSpeechDenoiserRun(
+      impl, samples, Int32(samples.count), Int32(sampleRate))
+
+    return SherpaOnnxDenoisedAudioWrapper(audio: audio)
+  }
+
+  var sampleRate: Int {
+    return Int(SherpaOnnxOfflineSpeechDenoiserGetSampleRate(impl))
+  }
+}
--- a/swift-api-examples/run-speech-enhancement-gtcrn.sh 0 → 100755
查看文件 @c12d1d8
+++ b/swift-api-examples/run-speech-enhancement-gtcrn.sh 0 → 100755
查看文件 @c12d1d8
+#!/usr/bin/env bash
+
+set -ex
+
+if [ ! -d ../build-swift-macos ]; then
+  echo "Please run ../build-swift-macos.sh first!"
+  exit 1
+fi
+
+if [ ! -f ./gtcrn_simple.onnx ]; then
+  curl -SL -O https://github.com/k2-fsa/sherpa-onnx/releases/download/speech-enhancement-models/gtcrn_simple.onnx
+fi
+
+if [ ! -f ./inp_16k.wav ]; then
+  curl -SL -O https://github.com/k2-fsa/sherpa-onnx/releases/download/speech-enhancement-models/inp_16k.wav
+fi
+
+if [ ! -e ./speech-enhancement-gtcrn ]; then
+  # Note: We use -lc++ to link against libc++ instead of libstdc++
+  swiftc \
+    -lc++ \
+    -I ../build-swift-macos/install/include \
+    -import-objc-header ./SherpaOnnx-Bridging-Header.h \
+    ./speech-enhancement-gtcrn.swift  ./SherpaOnnx.swift \
+    -L ../build-swift-macos/install/lib/ \
+    -l sherpa-onnx \
+    -l onnxruntime \
+    -o speech-enhancement-gtcrn
+
+  strip speech-enhancement-gtcrn
+else
+  echo "./speech-enhancement-gtcrn  exists - skip building"
+fi
+
+export DYLD_LIBRARY_PATH=$PWD/../build-swift-macos/install/lib:$DYLD_LIBRARY_PATH
+./speech-enhancement-gtcrn
--- a/swift-api-examples/speech-enhancement-gtcrn.swift 0 → 100644
查看文件 @c12d1d8
+++ b/swift-api-examples/speech-enhancement-gtcrn.swift 0 → 100644
查看文件 @c12d1d8
+import AVFoundation
+
+extension AudioBuffer {
+  func array() -> [Float] {
+    return Array(UnsafeBufferPointer(self))
+  }
+}
+
+extension AVAudioPCMBuffer {
+  func array() -> [Float] {
+    return self.audioBufferList.pointee.mBuffers.array()
+  }
+}
+
+func run() {
+  // Please refer to
+  // https://github.com/k2-fsa/sherpa-onnx/releases/tag/speech-enhancement-models
+  // to download files used in this script
+  var config = sherpaOnnxOfflineSpeechDenoiserConfig(
+    model: sherpaOnnxOfflineSpeechDenoiserModelConfig(
+      gtcrn: sherpaOnnxOfflineSpeechDenoiserGtcrnModelConfig(model: "./gtcrn_simple.onnx"))
+  )
+
+  let sd = SherpaOnnxOfflineSpeechDenoiserWrapper(config: &config)
+
+  let fileURL: NSURL = NSURL(fileURLWithPath: "./inp_16k.wav")
+  let audioFile = try! AVAudioFile(forReading: fileURL as URL)
+
+  let audioFormat = audioFile.processingFormat
+  assert(audioFormat.sampleRate == 16000)
+  assert(audioFormat.channelCount == 1)
+  assert(audioFormat.commonFormat == AVAudioCommonFormat.pcmFormatFloat32)
+
+  let audioFrameCount = UInt32(audioFile.length)
+  let audioFileBuffer = AVAudioPCMBuffer(pcmFormat: audioFormat, frameCapacity: audioFrameCount)
+
+  try! audioFile.read(into: audioFileBuffer!)
+  let array: [Float]! = audioFileBuffer?.array()
+  let audio = sd.run(samples: array, sampleRate: Int(audioFormat.sampleRate))
+
+  let filename = "enhanced_16k.wav"
+  let ok = audio.save(filename: filename)
+  if ok == 1 {
+    print("\nSaved to:\(filename)")
+  } else {
+    print("Failed to save to \(filename)")
+  }
+}
+
+@main
+struct App {
+  static func main() {
+    run()
+  }
+}