Add Swift API for computing speaker embeddings (#2492)

Fangjun Kuang · GitHub
Commit 283d8fed70acd30aee6a0871b0cf74d7bfcab2af 283d8fed 1 parent bec3e3dc
.github/scripts/test-swift.sh
swift-api-examples/.gitignore
swift-api-examples/SherpaOnnx.swift
swift-api-examples/compute-speaker-embeddings.swift
swift-api-examples/run-compute-speaker-embeddings.sh
--- a/.github/scripts/test-swift.sh
查看文件 @283d8fe
+++ b/.github/scripts/test-swift.sh
查看文件 @283d8fe
@@ -9,6 +9,9 @@ ls -lh
 
 ./run-test-version.sh
 
+ ./run-compute-speaker-embeddings.sh
+ rm -fv *.wav *.onnx
+ 
 ./run-tts-kitten-en.sh
 ls -lh
 rm -rf kitten-*
--- a/swift-api-examples/.gitignore
查看文件 @283d8fe
+++ b/swift-api-examples/.gitignore
查看文件 @283d8fe
@@ -21,3 +21,4 @@ test-version
 zipformer-ctc-asr
 dolphin-ctc-asr
 tts-kitten-en
+ compute-speaker-embeddings
--- a/swift-api-examples/SherpaOnnx.swift
查看文件 @283d8fe
+++ b/swift-api-examples/SherpaOnnx.swift
查看文件 @283d8fe
- /// swfit-api-examples/SherpaOnnx.swift
+ /// swift-api-examples/SherpaOnnx.swift
 /// Copyright (c)  2023  Xiaomi Corporation
 
 import Foundation  // For NSString
@@ -936,6 +936,41 @@ func sherpaOnnxOfflineTtsConfig(
   )
 }
 
+ class SherpaOnnxWaveWrapper {
+   let wave: UnsafePointer<SherpaOnnxWave>!
+ 
+   class func readWave(filename: String) -> SherpaOnnxWaveWrapper {
+     let wave = SherpaOnnxReadWave(toCPointer(filename))
+     return SherpaOnnxWaveWrapper(wave: wave)
+   }
+ 
+   init(wave: UnsafePointer<SherpaOnnxWave>!) {
+     self.wave = wave
+   }
+ 
+   deinit {
+     if let wave {
+       SherpaOnnxFreeWave(wave)
+     }
+   }
+ 
+   var numSamples: Int {
+     return Int(wave.pointee.num_samples)
+   }
+ 
+   var sampleRate: Int {
+     return Int(wave.pointee.sample_rate)
+   }
+ 
+   var samples: [Float] {
+     if numSamples == 0 {
+       return []
+     } else {
+       return [Float](UnsafeBufferPointer(start: wave.pointee.samples, count: numSamples))
+     }
+   }
+ }
+ 
 class SherpaOnnxGeneratedAudioWrapper {
   /// A pointer to the underlying counterpart in C
   let audio: UnsafePointer<SherpaOnnxGeneratedAudio>!
@@ -960,14 +995,9 @@ class SherpaOnnxGeneratedAudioWrapper {
 
   var samples: [Float] {
     if let p = audio.pointee.samples {
-       var samples: [Float] = []
-       for index in 0..<n {
-         samples.append(p[Int(index)])
-       }
-       return samples
+       return [Float](UnsafeBufferPointer(start: p, count: Int(n)))
     } else {
-       let samples: [Float] = []
-       return samples
+       return []
     }
   }
 
@@ -1432,6 +1462,72 @@ class SherpaOnnxOfflineSpeakerDiarizationWrapper {
   }
 }
 
+ class SherpaOnnxOnlineStreamWrapper {
+   /// A pointer to the underlying counterpart in C
+   let impl: OpaquePointer!
+   init(impl: OpaquePointer!) {
+     self.impl = impl
+   }
+ 
+   deinit {
+     if let impl {
+       SherpaOnnxDestroyOnlineStream(impl)
+     }
+   }
+ 
+   func acceptWaveform(samples: [Float], sampleRate: Int = 16000) {
+     SherpaOnnxOnlineStreamAcceptWaveform(impl, Int32(sampleRate), samples, Int32(samples.count))
+   }
+ 
+   func inputFinished() {
+     SherpaOnnxOnlineStreamInputFinished(impl)
+   }
+ }
+ 
+ class SherpaOnnxSpeakerEmbeddingExtractorWrapper {
+   /// A pointer to the underlying counterpart in C
+   let impl: OpaquePointer!
+ 
+   init(
+     config: UnsafePointer<SherpaOnnxSpeakerEmbeddingExtractorConfig>!
+   ) {
+     impl = SherpaOnnxCreateSpeakerEmbeddingExtractor(config)
+   }
+ 
+   deinit {
+     if let impl {
+       SherpaOnnxDestroySpeakerEmbeddingExtractor(impl)
+     }
+   }
+ 
+   var dim: Int {
+     return Int(SherpaOnnxSpeakerEmbeddingExtractorDim(impl))
+   }
+ 
+   func createStream() -> SherpaOnnxOnlineStreamWrapper {
+     let newStream = SherpaOnnxSpeakerEmbeddingExtractorCreateStream(impl)
+     return SherpaOnnxOnlineStreamWrapper(impl: newStream)
+   }
+ 
+   func isReady(stream: SherpaOnnxOnlineStreamWrapper) -> Bool {
+     return SherpaOnnxSpeakerEmbeddingExtractorIsReady(impl, stream.impl) == 1 ? true : false
+   }
+ 
+   func compute(stream: SherpaOnnxOnlineStreamWrapper) -> [Float] {
+     if !isReady(stream: stream) {
+       return []
+     }
+ 
+     let p = SherpaOnnxSpeakerEmbeddingExtractorComputeEmbedding(impl, stream.impl)
+ 
+     defer {
+       SherpaOnnxSpeakerEmbeddingExtractorDestroyEmbedding(p)
+     }
+ 
+     return [Float](UnsafeBufferPointer(start: p, count: dim))
+   }
+ }
+ 
 func sherpaOnnxOfflineSpeechDenoiserGtcrnModelConfig(model: String = "")
   -> SherpaOnnxOfflineSpeechDenoiserGtcrnModelConfig
 {
--- a/swift-api-examples/compute-speaker-embeddings.swift 0 → 100644
查看文件 @283d8fe
+++ b/swift-api-examples/compute-speaker-embeddings.swift 0 → 100644
查看文件 @283d8fe
+ /// swift-api-examples/compute-speaker-embeddings.swift
+ /// Copyright (c)  2025  Xiaomi Corporation
+ /*
+ Please download test files used in this script from
+ 
+ https://github.com/k2-fsa/sherpa-onnx/releases/tag/speaker-recongition-models
+ */
+ func cosineSimilarity(_ a: [Float], _ b: [Float]) -> Float {
+   precondition(a.count == b.count, "Vectors must have the same length")
+ 
+   // Dot product
+   let dotProduct = zip(a, b).reduce(0) { $0 + $1.0 * $1.1 }
+ 
+   // Magnitudes
+   let magA = sqrt(a.reduce(0) { $0 + $1 * $1 })
+   let magB = sqrt(b.reduce(0) { $0 + $1 * $1 })
+ 
+   // Avoid division by zero
+   guard magA > 0 && magB > 0 else { return 0 }
+ 
+   return dotProduct / (magA * magB)
+ }
+ 
+ func computeEmbedding(extractor: SherpaOnnxSpeakerEmbeddingExtractorWrapper, waveFilename: String)
+   -> [Float]
+ {
+   let audio = SherpaOnnxWaveWrapper.readWave(filename: waveFilename)
+   let stream = extractor.createStream()
+   stream.acceptWaveform(samples: audio.samples, sampleRate: audio.sampleRate)
+   stream.inputFinished()
+   return extractor.compute(stream: stream)
+ }
+ 
+ func run() {
+   let model = "./wespeaker_zh_cnceleb_resnet34.onnx"
+   var config = sherpaOnnxSpeakerEmbeddingExtractorConfig(model: model)
+   let extractor = SherpaOnnxSpeakerEmbeddingExtractorWrapper(config: &config)
+   let embedding1 = computeEmbedding(extractor: extractor, waveFilename: "./fangjun-sr-1.wav")
+   let embedding2 = computeEmbedding(extractor: extractor, waveFilename: "./fangjun-sr-2.wav")
+   let embedding3 = computeEmbedding(extractor: extractor, waveFilename: "./leijun-sr-1.wav")
+ 
+   let score12 = cosineSimilarity(embedding1, embedding2)
+   let score13 = cosineSimilarity(embedding1, embedding3)
+   let score23 = cosineSimilarity(embedding2, embedding3)
+ 
+   print("Score between spk1 and spk2: \(score12)")
+   print("Score between spk1 and spk3: \(score13)")
+   print("Score between spk2 and spk3: \(score23)")
+ }
+ 
+ @main
+ struct App {
+   static func main() {
+     run()
+   }
+ }
--- a/swift-api-examples/run-compute-speaker-embeddings.sh 0 → 100755
查看文件 @283d8fe
+++ b/swift-api-examples/run-compute-speaker-embeddings.sh 0 → 100755
查看文件 @283d8fe
+ #!/usr/bin/env bash
+ 
+ set -ex
+ 
+ if [ ! -d ../build-swift-macos ]; then
+   echo "Please run ../build-swift-macos.sh first!"
+   exit 1
+ fi
+ 
+ if [ ! -f ./wespeaker_zh_cnceleb_resnet34.onnx ]; then
+   echo "Please download the pre-trained model for testing."
+   echo "You can refer to"
+   echo ""
+   echo "https://github.com/k2-fsa/sherpa-onnx/releases/tag/speaker-recongition-models"
+   echo ""
+   echo "for help"
+ 
+   curl -SL -O https://github.com/k2-fsa/sherpa-onnx/releases/download/speaker-recongition-models/wespeaker_zh_cnceleb_resnet34.onnx
+ fi
+ 
+ if [ ! -f ./fangjun-sr-1.wav ]; then
+   curl -SL -O https://github.com/k2-fsa/sherpa-onnx/releases/download/speaker-recongition-models/fangjun-sr-1.wav
+ fi
+ 
+ if [ ! -f ./fangjun-sr-2.wav ]; then
+   curl -SL -O https://github.com/k2-fsa/sherpa-onnx/releases/download/speaker-recongition-models/fangjun-sr-2.wav
+ fi
+ 
+ if [ ! -f ./leijun-sr-1.wav ]; then
+   curl -SL -O https://github.com/k2-fsa/sherpa-onnx/releases/download/speaker-recongition-models/leijun-sr-1.wav
+ fi
+ 
+ if [ ! -e ./compute-speaker-embeddings ]; then
+   # Note: We use -lc++ to link against libc++ instead of libstdc++
+   swiftc \
+     -lc++ \
+     -I ../build-swift-macos/install/include \
+     -import-objc-header ./SherpaOnnx-Bridging-Header.h \
+     ./compute-speaker-embeddings.swift  ./SherpaOnnx.swift \
+     -L ../build-swift-macos/install/lib/ \
+     -l sherpa-onnx \
+     -l onnxruntime \
+     -o compute-speaker-embeddings
+ 
+   strip compute-speaker-embeddings
+ else
+   echo "./compute-speaker-embeddings exists - skip building"
+ fi
+ 
+ export DYLD_LIBRARY_PATH=$PWD/../build-swift-macos/install/lib:$DYLD_LIBRARY_PATH
+ ./compute-speaker-embeddings