Add Dart API for ten-vad (#2386)

Fangjun Kuang · GitHub
Commit 7f1d71fed32ab699f9df514ac507ebc6204d3d80 7f1d71fe 1 parent 71aea2f1
.github/scripts/test-dart.sh
dart-api-examples/vad/bin/ten-vad.dart
dart-api-examples/vad/run-ten-vad.sh
flutter/sherpa_onnx/lib/src/sherpa_onnx_bindings.dart
flutter/sherpa_onnx/lib/src/vad.dart
--- a/.github/scripts/test-dart.sh
查看文件 @7f1d71f
+++ b/.github/scripts/test-dart.sh
查看文件 @7f1d71f
@@ -4,6 +4,12 @@ set -ex
 cd dart-api-examples
+pushd vad
+./run-ten-vad.sh
+./run.sh
+rm *.onnx
+popd
+
 pushd non-streaming-asr
 echo '----------Zipformer CTC----------'
@@ -186,9 +192,3 @@ echo '----------streaming paraformer----------'
 rm -rf sherpa-onnx-*
 popd # streaming-asr
-
-pushd vad
-./run.sh
-rm *.onnx
-popd
-
--- a/dart-api-examples/vad/bin/ten-vad.dart 0 → 100644
查看文件 @7f1d71f
+++ b/dart-api-examples/vad/bin/ten-vad.dart 0 → 100644
查看文件 @7f1d71f
+// Copyright (c)  2024  Xiaomi Corporation
+import 'dart:io';
+import 'dart:typed_data';
+
+import 'package:args/args.dart';
+import 'package:sherpa_onnx/sherpa_onnx.dart' as sherpa_onnx;
+import './init.dart';
+
+void main(List<String> arguments) async {
+  await initSherpaOnnx();
+
+  final parser = ArgParser()
+    ..addOption('ten-vad', help: 'Path to ten-vad.onnx')
+    ..addOption('input-wav', help: 'Path to input.wav')
+    ..addOption('output-wav', help: 'Path to output.wav');
+
+  final res = parser.parse(arguments);
+  if (res['ten-vad'] == null ||
+      res['input-wav'] == null ||
+      res['output-wav'] == null) {
+    print(parser.usage);
+    exit(1);
+  }
+
+  final tenVad = res['ten-vad'] as String;
+  final inputWav = res['input-wav'] as String;
+  final outputWav = res['output-wav'] as String;
+
+  final tenVadConfig = sherpa_onnx.TenVadModelConfig(
+    model: tenVad,
+    threshold: 0.25,
+    minSilenceDuration: 0.25,
+    minSpeechDuration: 0.5,
+    windowSize: 256,
+  );
+
+  final config = sherpa_onnx.VadModelConfig(
+    tenVad: tenVadConfig,
+    numThreads: 1,
+    debug: true,
+  );
+
+  final vad = sherpa_onnx.VoiceActivityDetector(
+      config: config, bufferSizeInSeconds: 10);
+
+  final waveData = sherpa_onnx.readWave(inputWav);
+  if (waveData.sampleRate != 16000) {
+    print('Only 16000 Hz is supported. Given: ${waveData.sampleRate}');
+    exit(1);
+  }
+
+  int numSamples = waveData.samples.length;
+  int numIter = numSamples ~/ config.tenVad.windowSize;
+
+  List<List<double>> allSamples = [];
+
+  for (int i = 0; i != numIter; ++i) {
+    int start = i * config.tenVad.windowSize;
+    vad.acceptWaveform(Float32List.sublistView(
+        waveData.samples, start, start + config.tenVad.windowSize));
+
+    if (vad.isDetected()) {
+      while (!vad.isEmpty()) {
+        allSamples.add(vad.front().samples);
+        vad.pop();
+      }
+    }
+  }
+
+  vad.flush();
+  while (!vad.isEmpty()) {
+    allSamples.add(vad.front().samples);
+    vad.pop();
+  }
+
+  vad.free();
+
+  final s = Float32List.fromList(allSamples.expand((x) => x).toList());
+  sherpa_onnx.writeWave(
+      filename: outputWav, samples: s, sampleRate: waveData.sampleRate);
+
+  print('Saved to $outputWav');
+}
--- a/dart-api-examples/vad/run-ten-vad.sh 0 → 100755
查看文件 @7f1d71f
+++ b/dart-api-examples/vad/run-ten-vad.sh 0 → 100755
查看文件 @7f1d71f
+#!/usr/bin/env bash
+
+set -ex
+
+dart pub get
+
+
+if [[ ! -f ./ten-vad.onnx ]]; then
+  curl -SL -O https://github.com/k2-fsa/sherpa-onnx/releases/download/asr-models/ten-vad.onnx
+fi
+
+if [[ ! -f ./lei-jun-test.wav ]]; then
+  curl -SL -O https://github.com/k2-fsa/sherpa-onnx/releases/download/asr-models/lei-jun-test.wav
+fi
+
+dart run \
+  ./bin/ten-vad.dart \
+  --ten-vad ./ten-vad.onnx \
+  --input-wav ./lei-jun-test.wav \
+  --output-wav ./lei-jun-test-no-silence.wav
+
+ls -lh *.wav
--- a/flutter/sherpa_onnx/lib/src/sherpa_onnx_bindings.dart
查看文件 @7f1d71f
+++ b/flutter/sherpa_onnx/lib/src/sherpa_onnx_bindings.dart
查看文件 @7f1d71f
@@ -487,6 +487,25 @@ final class SherpaOnnxSileroVadModelConfig extends Struct {
   external double maxSpeechDuration;
 }
+final class SherpaOnnxTenVadModelConfig extends Struct {
+  external Pointer<Utf8> model;
+
+  @Float()
+  external double threshold;
+
+  @Float()
+  external double minSilenceDuration;
+
+  @Float()
+  external double minSpeechDuration;
+
+  @Int32()
+  external int windowSize;
+
+  @Float()
+  external double maxSpeechDuration;
+}
+
 final class SherpaOnnxVadModelConfig extends Struct {
   external SherpaOnnxSileroVadModelConfig sileroVad;
@@ -500,6 +519,8 @@ final class SherpaOnnxVadModelConfig extends Struct {
   @Int32()
   external int debug;
+
+  external SherpaOnnxTenVadModelConfig tenVad;
 }
 final class SherpaOnnxSpeechSegment extends Struct {
--- a/flutter/sherpa_onnx/lib/src/vad.dart
查看文件 @7f1d71f
+++ b/flutter/sherpa_onnx/lib/src/vad.dart
查看文件 @7f1d71f
@@ -49,6 +49,50 @@ class SileroVadModelConfig {
   final double maxSpeechDuration;
 }
+class TenVadModelConfig {
+  const TenVadModelConfig(
+      {this.model = '',
+      this.threshold = 0.5,
+      this.minSilenceDuration = 0.5,
+      this.minSpeechDuration = 0.25,
+      this.windowSize = 256,
+      this.maxSpeechDuration = 5.0});
+
+  factory TenVadModelConfig.fromJson(Map<String, dynamic> json) {
+    return TenVadModelConfig(
+      model: json['model'] as String? ?? '',
+      threshold: (json['threshold'] as num?)?.toDouble() ?? 0.5,
+      minSilenceDuration:
+          (json['minSilenceDuration'] as num?)?.toDouble() ?? 0.5,
+      minSpeechDuration:
+          (json['minSpeechDuration'] as num?)?.toDouble() ?? 0.25,
+      windowSize: json['windowSize'] as int? ?? 256,
+      maxSpeechDuration: (json['maxSpeechDuration'] as num?)?.toDouble() ?? 5.0,
+    );
+  }
+
+  @override
+  String toString() {
+    return 'TenVadModelConfig(model: $model, threshold: $threshold, minSilenceDuration: $minSilenceDuration, minSpeechDuration: $minSpeechDuration, windowSize: $windowSize, maxSpeechDuration: $maxSpeechDuration)';
+  }
+
+  Map<String, dynamic> toJson() => {
+        'model': model,
+        'threshold': threshold,
+        'minSilenceDuration': minSilenceDuration,
+        'minSpeechDuration': minSpeechDuration,
+        'windowSize': windowSize,
+        'maxSpeechDuration': maxSpeechDuration,
+      };
+
+  final String model;
+  final double threshold;
+  final double minSilenceDuration;
+  final double minSpeechDuration;
+  final int windowSize;
+  final double maxSpeechDuration;
+}
+
 class VadModelConfig {
   VadModelConfig({
     this.sileroVad = const SileroVadModelConfig(),
@@ -56,9 +100,11 @@ class VadModelConfig {
     this.numThreads = 1,
     this.provider = 'cpu',
     this.debug = true,
+    this.tenVad = const TenVadModelConfig(),
   });
   final SileroVadModelConfig sileroVad;
+  final TenVadModelConfig tenVad;
   final int sampleRate;
   final int numThreads;
   final String provider;
@@ -68,6 +114,8 @@ class VadModelConfig {
     return VadModelConfig(
       sileroVad: SileroVadModelConfig.fromJson(
           json['sileroVad'] as Map<String, dynamic>? ?? const {}),
+      tenVad: TenVadModelConfig.fromJson(
+          json['tenVad'] as Map<String, dynamic>? ?? const {}),
       sampleRate: json['sampleRate'] as int? ?? 16000,
       numThreads: json['numThreads'] as int? ?? 1,
       provider: json['provider'] as String? ?? 'cpu',
@@ -77,6 +125,7 @@ class VadModelConfig {
   Map<String, dynamic> toJson() => {
         'sileroVad': sileroVad.toJson(),
+        'tenVad': tenVad.toJson(),
         'sampleRate': sampleRate,
         'numThreads': numThreads,
         'provider': provider,
@@ -85,7 +134,7 @@ class VadModelConfig {
   @override
   String toString() {
-    return 'VadModelConfig(sileroVad: $sileroVad, sampleRate: $sampleRate, numThreads: $numThreads, provider: $provider, debug: $debug)';
+    return 'VadModelConfig(sileroVad: $sileroVad, tenVad: $tenVad, sampleRate: $sampleRate, numThreads: $numThreads, provider: $provider, debug: $debug)';
   }
 }
@@ -168,8 +217,8 @@ class VoiceActivityDetector {
       {required VadModelConfig config, required double bufferSizeInSeconds}) {
     final c = calloc<SherpaOnnxVadModelConfig>();
-    final modelPtr = config.sileroVad.model.toNativeUtf8();
-    c.ref.sileroVad.model = modelPtr;
+    final sileroVadModelPtr = config.sileroVad.model.toNativeUtf8();
+    c.ref.sileroVad.model = sileroVadModelPtr;
     c.ref.sileroVad.threshold = config.sileroVad.threshold;
     c.ref.sileroVad.minSilenceDuration = config.sileroVad.minSilenceDuration;
@@ -177,6 +226,15 @@ class VoiceActivityDetector {
     c.ref.sileroVad.windowSize = config.sileroVad.windowSize;
     c.ref.sileroVad.maxSpeechDuration = config.sileroVad.maxSpeechDuration;
+    final tenVadModelPtr = config.tenVad.model.toNativeUtf8();
+    c.ref.tenVad.model = tenVadModelPtr;
+
+    c.ref.tenVad.threshold = config.tenVad.threshold;
+    c.ref.tenVad.minSilenceDuration = config.tenVad.minSilenceDuration;
+    c.ref.tenVad.minSpeechDuration = config.tenVad.minSpeechDuration;
+    c.ref.tenVad.windowSize = config.tenVad.windowSize;
+    c.ref.tenVad.maxSpeechDuration = config.tenVad.maxSpeechDuration;
+
     c.ref.sampleRate = config.sampleRate;
     c.ref.numThreads = config.numThreads;
@@ -190,7 +248,8 @@ class VoiceActivityDetector {
         nullptr;
     calloc.free(providerPtr);
-    calloc.free(modelPtr);
+    calloc.free(tenVadModelPtr);
+    calloc.free(sileroVadModelPtr);
     calloc.free(c);
     return VoiceActivityDetector._(ptr: ptr, config: config);