Add C++ support for UVR models (#2269)

Fangjun Kuang · GitHub
Commit 2b2788332e663133836f1a19ed4831c331d70b6b 2b278833 1 parent e0ca224b
.github/scripts/test-offline-source-separation.sh
.github/workflows/linux.yaml
README.md
cxx-api-examples/parakeet-tdt-simulate-streaming-microphone-cxx-api.cc
cxx-api-examples/sense-voice-simulate-streaming-alsa-cxx-api.cc
cxx-api-examples/sense-voice-simulate-streaming-microphone-cxx-api.cc
cxx-api-examples/sherpa-display.h
sherpa-onnx/c-api/c-api.cc
sherpa-onnx/csrc/CMakeLists.txt
sherpa-onnx/csrc/microphone.cc
sherpa-onnx/csrc/microphone.h
sherpa-onnx/csrc/offline-source-separation-impl.cc
sherpa-onnx/csrc/offline-source-separation-impl.h
sherpa-onnx/csrc/offline-source-separation-model-config.cc
sherpa-onnx/csrc/offline-source-separation-model-config.h
sherpa-onnx/csrc/offline-source-separation-spleeter-impl.h
sherpa-onnx/csrc/offline-source-separation-spleeter-model-config.cc
sherpa-onnx/csrc/offline-source-separation-spleeter-model-config.h
sherpa-onnx/csrc/offline-source-separation-spleeter-model-meta-data.h
sherpa-onnx/csrc/offline-source-separation-uvr-impl.h
--- a/.github/scripts/test-offline-source-separation.sh 0 → 100755
查看文件 @2b27883
+++ b/.github/scripts/test-offline-source-separation.sh 0 → 100755
查看文件 @2b27883
+#!/usr/bin/env bash
+
+set -ex
+
+log() {
+  # This function is from espnet
+  local fname=${BASH_SOURCE[1]##*/}
+  echo -e "$(date '+%Y-%m-%d %H:%M:%S') (${fname}:${BASH_LINENO[0]}:${FUNCNAME[1]}) $*"
+}
+
+if [ -z $EXE ]; then
+  EXE=./build/bin/sherpa-onnx-offline-source-separation
+fi
+
+echo "EXE is $EXE"
+echo "PATH: $PATH"
+
+which $EXE
+
+log "------------------------------------------------------------"
+log "Run spleeter"
+log "------------------------------------------------------------"
+curl -SL -O https://github.com/k2-fsa/sherpa-onnx/releases/download/source-separation-models/sherpa-onnx-spleeter-2stems-fp16.tar.bz2
+tar xvf sherpa-onnx-spleeter-2stems-fp16.tar.bz2
+rm sherpa-onnx-spleeter-2stems-fp16.tar.bz2
+
+curl -SL -O https://github.com/k2-fsa/sherpa-onnx/releases/download/source-separation-models/qi-feng-le-zh.wav
+
+$EXE \
+  --spleeter-vocals=sherpa-onnx-spleeter-2stems-fp16/vocals.fp16.onnx \
+  --spleeter-accompaniment=sherpa-onnx-spleeter-2stems-fp16/accompaniment.fp16.onnx \
+  --num-threads=2 \
+  --debug=1 \
+  --input-wav=./qi-feng-le-zh.wav \
+  --output-vocals-wav=spleeter_output_vocals.wav \
+  --output-accompaniment-wav=spleeter_output_accompaniment.wav
+
+rm -rf sherpa-onnx-spleeter-2stems-fp16
+
+log "------------------------------------------------------------"
+log "Run UVR"
+log "------------------------------------------------------------"
+curl -SL -O https://github.com/k2-fsa/sherpa-onnx/releases/download/source-separation-models/UVR-MDX-NET-Voc_FT.onnx
+
+$EXE \
+  --debug=1 \
+  --num-threads=2 \
+  --uvr-model=./UVR-MDX-NET-Voc_FT.onnx \
+  --input-wav=./qi-feng-le-zh.wav \
+  --output-vocals-wav=uvr_output_vocals.wav \
+  --output-accompaniment-wav=uvr_output_non_vocals.wav
+
+rm ./UVR-MDX-NET-Voc_FT.onnx \
+
+mkdir source-separation-wavs
+mv qi-feng-le-zh.wav source-separation-wavs
+mv spleeter_*.wav ./source-separation-wavs
+mv uvr_*.wav ./source-separation-wavs
--- a/.github/workflows/linux.yaml
查看文件 @2b27883
+++ b/.github/workflows/linux.yaml
查看文件 @2b27883
@@ -11,6 +11,7 @@ on:
       - '.github/scripts/test-kws.sh'
       - '.github/scripts/test-online-transducer.sh'
       - '.github/scripts/test-offline-speech-denoiser.sh'
+      - '.github/scripts/test-offline-source-separation.sh'
       - '.github/scripts/test-online-paraformer.sh'
       - '.github/scripts/test-offline-transducer.sh'
       - '.github/scripts/test-offline-ctc.sh'
@@ -33,6 +34,7 @@ on:
       - '.github/workflows/linux.yaml'
       - '.github/scripts/test-kws.sh'
       - '.github/scripts/test-offline-speech-denoiser.sh'
+      - '.github/scripts/test-offline-source-separation.sh'
       - '.github/scripts/test-online-transducer.sh'
       - '.github/scripts/test-online-paraformer.sh'
       - '.github/scripts/test-offline-transducer.sh'
@@ -205,6 +207,20 @@ jobs:
           overwrite: true
           file: sherpa-onnx-*.tar.bz2
+      - name: Test offline source separation
+        shell: bash
+        run: |
+          du -h -d1 .
+          export PATH=$PWD/build/bin:$PATH
+          export EXE=sherpa-onnx-offline-source-separation
+
+          .github/scripts/test-offline-source-separation.sh
+
+      - uses: actions/upload-artifact@v4
+        with:
+          name: source-separation-${{ matrix.build_type }}-with-shared-lib-${{ matrix.shared_lib }}-with-tts-${{ matrix.with_tts }}
+          path: ./source-separation-wavs/*.wav
+
       - name: Test offline CTC
         shell: bash
         run: |
--- a/README.md
查看文件 @2b27883
+++ b/README.md
查看文件 @2b27883
 ### Supported functions
-|Speech recognition| Speech synthesis |
-|------------------|------------------|
-|   ✔️              |         ✔️        |
+|Speech recognition| Speech synthesis | Source separation |
+|------------------|------------------|-------------------|
+|   ✔️              |         ✔️        |       ✔️           |
 |Speaker identification| Speaker diarization | Speaker verification |
 |----------------------|-------------------- |------------------------|
@@ -16,6 +16,7 @@
 |------------------|-----------------|--------------------|
 |     ✔️            |       ✔️         |      ✔️             |
+
 ### Supported platforms
 |Architecture| Android | iOS     | Windows    | macOS | linux | HarmonyOS |
@@ -56,7 +57,9 @@ This repository supports running the following functions **locally**
   - Spoken language identification
   - Audio tagging
   - VAD (e.g., [silero-vad][silero-vad])
+  - Speech enhancement (e.g., [gtcrn][gtcrn])
   - Keyword spotting
+  - Source separation (e.g., [spleeter][spleeter], [UVR][UVR])
 on the following platforms and operating systems:
@@ -75,6 +78,7 @@ on the following platforms and operating systems:
   - [VisionFive 2][VisionFive 2]
   - [旭日X3派][旭日X3派]
   - [爱芯派][爱芯派]
+  - [RK3588][RK3588]
   - etc
 with the following APIs
@@ -200,6 +204,7 @@ We also have spaces built using WebAssembly. They are listed below:
 | Punctuation                                 | [Address][punct-models]                                                               |
 | Speaker segmentation                        | [Address][speaker-segmentation-models]                                                |
 | Speech enhancement                          | [Address][speech-enhancement-models]                                                  |
+| Source separation                           | [Address][source-separation-models]                                                  |
 </details>
@@ -481,3 +486,8 @@ It uses sherpa-onnx for speech-to-text and text-to-speech.
 [NVIDIA Jetson Orin NX]: https://developer.download.nvidia.com/assets/embedded/secure/jetson/orin_nx/docs/Jetson_Orin_NX_DS-10712-001_v0.5.pdf?RCPGu9Q6OVAOv7a7vgtwc9-BLScXRIWq6cSLuditMALECJ_dOj27DgnqAPGVnT2VpiNpQan9SyFy-9zRykR58CokzbXwjSA7Gj819e91AXPrWkGZR3oS1VLxiDEpJa_Y0lr7UT-N4GnXtb8NlUkP4GkCkkF_FQivGPrAucCUywL481GH_WpP_p7ziHU1Wg==&t=eyJscyI6ImdzZW8iLCJsc2QiOiJodHRwczovL3d3dy5nb29nbGUuY29tLmhrLyJ9
 [NVIDIA Jetson Nano B01]: https://www.seeedstudio.com/blog/2020/01/16/new-revision-of-jetson-nano-dev-kit-now-supports-new-jetson-nano-module/
 [speech-enhancement-models]: https://github.com/k2-fsa/sherpa-onnx/releases/tag/speech-enhancement-models
+[source-separation-models]: https://github.com/k2-fsa/sherpa-onnx/releases/tag/source-separation-models
+[RK3588]: https://www.rock-chips.com/uploads/pdf/2022.8.26/192/RK3588%20Brief%20Datasheet.pdf
+[spleeter]: https://github.com/deezer/spleeter
+[UVR]: https://github.com/Anjok07/ultimatevocalremovergui
+[gtcrn]: https://github.com/Xiaobin-Rong/gtcrn
--- a/cxx-api-examples/parakeet-tdt-simulate-streaming-microphone-cxx-api.cc
查看文件 @2b27883
+++ b/cxx-api-examples/parakeet-tdt-simulate-streaming-microphone-cxx-api.cc
查看文件 @2b27883
@@ -136,8 +136,8 @@ int32_t main() {
     fprintf(stderr, "Use sample rate %f for mic\n", mic_sample_rate);
     mic_sample_rate = atof(sample_rate_str);
   }
-  if(!mic.OpenDevice(device_index, mic_sample_rate, 1, RecordCallback,
-                     nullptr) == false) {
+  if (!mic.OpenDevice(device_index, mic_sample_rate, 1, RecordCallback,
+                      nullptr) == false) {
     std::cerr << "Failed to open microphone device\n";
     return -1;
   }
--- a/cxx-api-examples/sense-voice-simulate-streaming-alsa-cxx-api.cc
查看文件 @2b27883
+++ b/cxx-api-examples/sense-voice-simulate-streaming-alsa-cxx-api.cc
查看文件 @2b27883
@@ -24,7 +24,7 @@
 #include <iostream>
 #include <mutex>  // NOLINT
 #include <queue>
-#include <thread>
+#include <thread>  // NOLINT
 #include <vector>
 #include "portaudio.h"       // NOLINT
--- a/cxx-api-examples/sense-voice-simulate-streaming-microphone-cxx-api.cc
查看文件 @2b27883
+++ b/cxx-api-examples/sense-voice-simulate-streaming-microphone-cxx-api.cc
查看文件 @2b27883
@@ -143,7 +143,7 @@ int32_t main() {
                                         lowpass_cutoff, lowpass_filter_width);
   }
   if (mic.OpenDevice(device_index, mic_sample_rate, 1, RecordCallback,
-                    nullptr) == false) {
+                     nullptr) == false) {
     std::cerr << "Failed to open microphone device\n";
     return -1;
   }
--- a/cxx-api-examples/sherpa-display.h
查看文件 @2b27883
+++ b/cxx-api-examples/sherpa-display.h
查看文件 @2b27883
+// cxx-api-examples/sherpa-display.cc
+// Copyright (c)  2025  Xiaomi Corporation
 #pragma once
 #include <stdlib.h>
@@ -6,6 +8,8 @@
 #include <iomanip>
 #include <sstream>
 #include <string>
+#include <utility>
+#include <vector>
 namespace sherpa_onnx::cxx {
--- a/sherpa-onnx/c-api/c-api.cc
查看文件 @2b27883
+++ b/sherpa-onnx/c-api/c-api.cc
查看文件 @2b27883
@@ -159,14 +159,15 @@ static sherpa_onnx::OnlineRecognizerConfig GetOnlineRecognizerConfig(
   recognizer_config.hr.rule_fsts = SHERPA_ONNX_OR(config->hr.rule_fsts, "");
   if (config->model_config.debug) {
+#if __OHOS__
     auto str_vec = sherpa_onnx::SplitString(recognizer_config.ToString(), 128);
     for (const auto &s : str_vec) {
-#if __OHOS__
       SHERPA_ONNX_LOGE("%{public}s\n", s.c_str());
-#else
       SHERPA_ONNX_LOGE("%s\n", s.c_str());
-#endif
     }
+#else
+    SHERPA_ONNX_LOGE("%s", recognizer_config.ToString().c_str());
+#endif
   }
   return recognizer_config;
@@ -507,14 +508,15 @@ static sherpa_onnx::OfflineRecognizerConfig GetOfflineRecognizerConfig(
   recognizer_config.hr.rule_fsts = SHERPA_ONNX_OR(config->hr.rule_fsts, "");
   if (config->model_config.debug) {
+#if __OHOS__
     auto str_vec = sherpa_onnx::SplitString(recognizer_config.ToString(), 128);
     for (const auto &s : str_vec) {
-#if __OHOS__
       SHERPA_ONNX_LOGE("%{public}s\n", s.c_str());
-#else
       SHERPA_ONNX_LOGE("%s\n", s.c_str());
-#endif
     }
+#else
+    SHERPA_ONNX_LOGE("%s", recognizer_config.ToString().c_str());
+#endif
   }
   return recognizer_config;
--- a/sherpa-onnx/csrc/CMakeLists.txt
查看文件 @2b27883
+++ b/sherpa-onnx/csrc/CMakeLists.txt
查看文件 @2b27883
@@ -55,6 +55,8 @@ set(sources
   offline-source-separation-model-config.cc
   offline-source-separation-spleeter-model-config.cc
   offline-source-separation-spleeter-model.cc
+  offline-source-separation-uvr-model-config.cc
+  offline-source-separation-uvr-model.cc
   offline-source-separation.cc
   offline-stream.cc
--- a/sherpa-onnx/csrc/microphone.cc
查看文件 @2b27883
+++ b/sherpa-onnx/csrc/microphone.cc
查看文件 @2b27883
@@ -25,9 +25,7 @@ Microphone::~Microphone() {
   }
 }
-int Microphone::GetDeviceCount() const {
-  return Pa_GetDeviceCount();
-}
+int Microphone::GetDeviceCount() const { return Pa_GetDeviceCount(); }
 int Microphone::GetDefaultInputDevice() const {
   return Pa_GetDefaultInputDevice();
@@ -43,7 +41,8 @@ void Microphone::PrintDevices(int device_index) const {
   }
 }
-bool Microphone::OpenDevice(int index, int sample_rate, int channel, PaStreamCallback cb, void* userdata) {
+bool Microphone::OpenDevice(int index, int sample_rate, int channel,
+                            PaStreamCallback cb, void *userdata) {
   if (index < 0 || index >= Pa_GetDeviceCount()) {
     fprintf(stderr, "Invalid device index: %d\n", index);
     return false;
@@ -68,7 +67,8 @@ bool Microphone::OpenDevice(int index, int sample_rate, int channel, PaStreamCal
   param.suggestedLatency = info->defaultLowInputLatency;
   param.hostApiSpecificStreamInfo = nullptr;
-  PaError err = Pa_OpenStream(&stream, &param, nullptr, /* &outputParameters, */
+  PaError err =
+      Pa_OpenStream(&stream, &param, nullptr, /* &outputParameters, */
                     sample_rate,
                     0,          // frames per buffer
                     paClipOff,  // we won't output out of range samples
--- a/sherpa-onnx/csrc/microphone.h
查看文件 @2b27883
+++ b/sherpa-onnx/csrc/microphone.h
查看文件 @2b27883
@@ -4,22 +4,27 @@
 #ifndef SHERPA_ONNX_CSRC_MICROPHONE_H_
 #define SHERPA_ONNX_CSRC_MICROPHONE_H_
-#include "portaudio.h"  // NOLINT
+#include <cstdint>
+#include "portaudio.h"  // NOLINT
 namespace sherpa_onnx {
 class Microphone {
-  PaStream *stream = nullptr;
  public:
   Microphone();
   ~Microphone();
-  int GetDeviceCount() const;
-  int GetDefaultInputDevice() const;
-  void PrintDevices(int sel) const;
-  
-  bool OpenDevice(int index, int sample_rate, int channel, PaStreamCallback cb, void* userdata);
+  int32_t GetDeviceCount() const;
+  int32_t GetDefaultInputDevice() const;
+  void PrintDevices(int32_t sel) const;
+
+  bool OpenDevice(int32_t index, int32_t sample_rate, int32_t channel,
+                  PaStreamCallback cb, void *userdata);
+
   void CloseDevice();
+
+ private:
+  PaStream *stream = nullptr;
 };
 }  // namespace sherpa_onnx
--- a/sherpa-onnx/csrc/offline-source-separation-impl.cc
查看文件 @2b27883
+++ b/sherpa-onnx/csrc/offline-source-separation-impl.cc
查看文件 @2b27883
@@ -4,7 +4,9 @@
 #include "sherpa-onnx/csrc/offline-source-separation-impl.h"
+#include <algorithm>
 #include <memory>
+#include <utility>
 #if __ANDROID_API__ >= 9
 #include "android/asset_manager.h"
@@ -16,22 +18,93 @@
 #endif
 #include "sherpa-onnx/csrc/offline-source-separation-spleeter-impl.h"
+#include "sherpa-onnx/csrc/offline-source-separation-uvr-impl.h"
+#include "sherpa-onnx/csrc/resample.h"
 namespace sherpa_onnx {
 std::unique_ptr<OfflineSourceSeparationImpl>
 OfflineSourceSeparationImpl::Create(
     const OfflineSourceSeparationConfig &config) {
-  // TODO(fangjun): Support other models
-  return std::make_unique<OfflineSourceSeparationSpleeterImpl>(config);
+  if (!config.model.spleeter.vocals.empty()) {
+    return std::make_unique<OfflineSourceSeparationSpleeterImpl>(config);
+  }
+
+  if (!config.model.uvr.model.empty()) {
+    return std::make_unique<OfflineSourceSeparationUvrImpl>(config);
+  }
+
+  SHERPA_ONNX_LOGE("Please provide a separation model!");
+
+  return nullptr;
 }
 template <typename Manager>
 std::unique_ptr<OfflineSourceSeparationImpl>
 OfflineSourceSeparationImpl::Create(
     Manager *mgr, const OfflineSourceSeparationConfig &config) {
-  // TODO(fangjun): Support other models
-  return std::make_unique<OfflineSourceSeparationSpleeterImpl>(mgr, config);
+  if (!config.model.spleeter.vocals.empty()) {
+    return std::make_unique<OfflineSourceSeparationSpleeterImpl>(mgr, config);
+  }
+
+  if (!config.model.uvr.model.empty()) {
+    return std::make_unique<OfflineSourceSeparationUvrImpl>(mgr, config);
+  }
+
+  SHERPA_ONNX_LOGE("Please provide a separation model!");
+
+  return nullptr;
+}
+
+OfflineSourceSeparationInput OfflineSourceSeparationImpl::Resample(
+    const OfflineSourceSeparationInput &input, bool debug /*= false*/) const {
+  const OfflineSourceSeparationInput *p_input = &input;
+  OfflineSourceSeparationInput tmp_input;
+
+  int32_t output_sample_rate = GetOutputSampleRate();
+
+  if (input.sample_rate != output_sample_rate) {
+    SHERPA_ONNX_LOGE(
+        "Creating a resampler:\n"
+        "   in_sample_rate: %d\n"
+        "   output_sample_rate: %d\n",
+        input.sample_rate, output_sample_rate);
+
+    float min_freq = std::min<int32_t>(input.sample_rate, output_sample_rate);
+    float lowpass_cutoff = 0.99 * 0.5 * min_freq;
+
+    int32_t lowpass_filter_width = 6;
+    auto resampler =
+        std::make_unique<LinearResample>(input.sample_rate, output_sample_rate,
+                                         lowpass_cutoff, lowpass_filter_width);
+
+    std::vector<float> s;
+    for (const auto &samples : input.samples.data) {
+      resampler->Reset();
+      resampler->Resample(samples.data(), samples.size(), true, &s);
+      tmp_input.samples.data.push_back(std::move(s));
+    }
+
+    tmp_input.sample_rate = output_sample_rate;
+    p_input = &tmp_input;
+  }
+
+  if (p_input->samples.data.size() > 1) {
+    if (debug) {
+      SHERPA_ONNX_LOGE("input ch1 samples size: %d",
+                       static_cast<int32_t>(p_input->samples.data[1].size()));
+    }
+
+    if (p_input->samples.data[0].size() != p_input->samples.data[1].size()) {
+      SHERPA_ONNX_LOGE("ch0 samples size %d vs ch1 samples size %d",
+                       static_cast<int32_t>(p_input->samples.data[0].size()),
+                       static_cast<int32_t>(p_input->samples.data[1].size()));
+
+      SHERPA_ONNX_EXIT(-1);
+    }
+  }
+
+  return *p_input;
 }
 #if __ANDROID_API__ >= 9
--- a/sherpa-onnx/csrc/offline-source-separation-impl.h
查看文件 @2b27883
+++ b/sherpa-onnx/csrc/offline-source-separation-impl.h
查看文件 @2b27883
@@ -5,6 +5,7 @@
 #ifndef SHERPA_ONNX_CSRC_OFFLINE_SOURCE_SEPARATION_IMPL_H_
 #define SHERPA_ONNX_CSRC_OFFLINE_SOURCE_SEPARATION_IMPL_H_
+#include <memory>
 #include <vector>
 #include "sherpa-onnx/csrc/offline-source-separation.h"
@@ -28,6 +29,9 @@ class OfflineSourceSeparationImpl {
   virtual int32_t GetOutputSampleRate() const = 0;
   virtual int32_t GetNumberOfStems() const = 0;
+
+  OfflineSourceSeparationInput Resample(
+      const OfflineSourceSeparationInput &input, bool debug = false) const;
 };
 }  // namespace sherpa_onnx
--- a/sherpa-onnx/csrc/offline-source-separation-model-config.cc
查看文件 @2b27883
+++ b/sherpa-onnx/csrc/offline-source-separation-model-config.cc
查看文件 @2b27883
@@ -4,10 +4,13 @@
 #include "sherpa-onnx/csrc/offline-source-separation-model-config.h"
+#include "sherpa-onnx/csrc/macros.h"
+
 namespace sherpa_onnx {
 void OfflineSourceSeparationModelConfig::Register(ParseOptions *po) {
   spleeter.Register(po);
+  uvr.Register(po);
   po->Register("num-threads", &num_threads,
                "Number of threads to run the neural network");
@@ -20,7 +23,17 @@ void OfflineSourceSeparationModelConfig::Register(ParseOptions *po) {
 }
 bool OfflineSourceSeparationModelConfig::Validate() const {
-  return spleeter.Validate();
+  if (!spleeter.vocals.empty()) {
+    return spleeter.Validate();
+  }
+
+  if (!uvr.model.empty()) {
+    return uvr.Validate();
+  }
+
+  SHERPA_ONNX_LOGE("Please specify a source separation model");
+
+  return false;
 }
 std::string OfflineSourceSeparationModelConfig::ToString() const {
@@ -28,6 +41,7 @@ std::string OfflineSourceSeparationModelConfig::ToString() const {
   os << "OfflineSourceSeparationModelConfig(";
   os << "spleeter=" << spleeter.ToString() << ", ";
+  os << "uvr=" << uvr.ToString() << ", ";
   os << "num_threads=" << num_threads << ", ";
   os << "debug=" << (debug ? "True" : "False") << ", ";
   os << "provider=\"" << provider << "\")";
--- a/sherpa-onnx/csrc/offline-source-separation-model-config.h
查看文件 @2b27883
+++ b/sherpa-onnx/csrc/offline-source-separation-model-config.h
查看文件 @2b27883
@@ -8,12 +8,14 @@
 #include <string>
 #include "sherpa-onnx/csrc/offline-source-separation-spleeter-model-config.h"
+#include "sherpa-onnx/csrc/offline-source-separation-uvr-model-config.h"
 #include "sherpa-onnx/csrc/parse-options.h"
 namespace sherpa_onnx {
 struct OfflineSourceSeparationModelConfig {
   OfflineSourceSeparationSpleeterModelConfig spleeter;
+  OfflineSourceSeparationUvrModelConfig uvr;
   int32_t num_threads = 1;
   bool debug = false;
@@ -23,8 +25,10 @@ struct OfflineSourceSeparationModelConfig {
   OfflineSourceSeparationModelConfig(
       const OfflineSourceSeparationSpleeterModelConfig &spleeter,
-      int32_t num_threads, bool debug, const std::string &provider)
+      const OfflineSourceSeparationUvrModelConfig &uvr, int32_t num_threads,
+      bool debug, const std::string &provider)
       : spleeter(spleeter),
+        uvr(uvr),
         num_threads(num_threads),
         debug(debug),
         provider(provider) {}
--- a/sherpa-onnx/csrc/offline-source-separation-spleeter-impl.h
查看文件 @2b27883
+++ b/sherpa-onnx/csrc/offline-source-separation-spleeter-impl.h
查看文件 @2b27883
@@ -5,6 +5,10 @@
 #ifndef SHERPA_ONNX_CSRC_OFFLINE_SOURCE_SEPARATION_SPLEETER_IMPL_H_
 #define SHERPA_ONNX_CSRC_OFFLINE_SOURCE_SEPARATION_SPLEETER_IMPL_H_
+#include <algorithm>
+#include <utility>
+#include <vector>
+
 #include "Eigen/Dense"
 #include "kaldi-native-fbank/csrc/istft.h"
 #include "kaldi-native-fbank/csrc/stft.h"
@@ -12,13 +16,12 @@
 #include "sherpa-onnx/csrc/offline-source-separation-spleeter-model.h"
 #include "sherpa-onnx/csrc/offline-source-separation.h"
 #include "sherpa-onnx/csrc/onnx-utils.h"
-#include "sherpa-onnx/csrc/resample.h"
 namespace sherpa_onnx {
 class OfflineSourceSeparationSpleeterImpl : public OfflineSourceSeparationImpl {
  public:
-  OfflineSourceSeparationSpleeterImpl(
+  explicit OfflineSourceSeparationSpleeterImpl(
       const OfflineSourceSeparationConfig &config)
       : config_(config), model_(config_.model) {}
@@ -28,56 +31,12 @@ class OfflineSourceSeparationSpleeterImpl : public OfflineSourceSeparationImpl {
       : config_(config), model_(mgr, config_.model) {}
   OfflineSourceSeparationOutput Process(
-      const OfflineSourceSeparationInput &input) const override {
-    const OfflineSourceSeparationInput *p_input = &input;
-    OfflineSourceSeparationInput tmp_input;
-
-    int32_t output_sample_rate = GetOutputSampleRate();
-
-    if (input.sample_rate != output_sample_rate) {
-      SHERPA_ONNX_LOGE(
-          "Creating a resampler:\n"
-          "   in_sample_rate: %d\n"
-          "   output_sample_rate: %d\n",
-          input.sample_rate, output_sample_rate);
-
-      float min_freq = std::min<int32_t>(input.sample_rate, output_sample_rate);
-      float lowpass_cutoff = 0.99 * 0.5 * min_freq;
-
-      int32_t lowpass_filter_width = 6;
-      auto resampler = std::make_unique<LinearResample>(
-          input.sample_rate, output_sample_rate, lowpass_cutoff,
-          lowpass_filter_width);
-
-      std::vector<float> s;
-      for (const auto &samples : input.samples.data) {
-        resampler->Reset();
-        resampler->Resample(samples.data(), samples.size(), true, &s);
-        tmp_input.samples.data.push_back(std::move(s));
-      }
-
-      tmp_input.sample_rate = output_sample_rate;
-      p_input = &tmp_input;
-    }
-
-    if (p_input->samples.data.size() > 1) {
-      if (config_.model.debug) {
-        SHERPA_ONNX_LOGE("input ch1 samples size: %d",
-                         static_cast<int32_t>(p_input->samples.data[1].size()));
-      }
-
-      if (p_input->samples.data[0].size() != p_input->samples.data[1].size()) {
-        SHERPA_ONNX_LOGE("ch0 samples size %d vs ch1 samples size %d",
-                         static_cast<int32_t>(p_input->samples.data[0].size()),
-                         static_cast<int32_t>(p_input->samples.data[1].size()));
-
-        SHERPA_ONNX_EXIT(-1);
-      }
-    }
+      const OfflineSourceSeparationInput &_input) const override {
+    auto input = Resample(_input, config_.model.debug);
-    auto stft_ch0 = ComputeStft(*p_input, 0);
+    auto stft_ch0 = ComputeStft(input, 0);
-    auto stft_ch1 = ComputeStft(*p_input, 1);
+    auto stft_ch1 = ComputeStft(input, 1);
     knf::StftResult *p_stft_ch1 = stft_ch1.real.empty() ? &stft_ch0 : &stft_ch1;
     int32_t num_frames = stft_ch0.num_frames;
@@ -261,7 +220,6 @@ class OfflineSourceSeparationSpleeterImpl : public OfflineSourceSeparationImpl {
     stft_config.win_length = meta.window_length;
     stft_config.window_type = meta.window_type;
     stft_config.center = meta.center;
-    stft_config.center = false;
     return stft_config;
   }
--- a/sherpa-onnx/csrc/offline-source-separation-spleeter-model-config.cc
查看文件 @2b27883
+++ b/sherpa-onnx/csrc/offline-source-separation-spleeter-model-config.cc
查看文件 @2b27883
-// sherpa-onnx/csrc/offline-source-separation-spleeter_model-config.cc
+// sherpa-onnx/csrc/offline-source-separation-spleeter-model-config.cc
 //
 // Copyright (c)  2025  Xiaomi Corporation
--- a/sherpa-onnx/csrc/offline-source-separation-spleeter-model-config.h
查看文件 @2b27883
+++ b/sherpa-onnx/csrc/offline-source-separation-spleeter-model-config.h
查看文件 @2b27883
-// sherpa-onnx/csrc/offline-source-separation-spleeter_model-config.h
+// sherpa-onnx/csrc/offline-source-separation-spleeter-model-config.h
 //
 // Copyright (c)  2025  Xiaomi Corporation
--- a/sherpa-onnx/csrc/offline-source-separation-spleeter-model-meta-data.h
查看文件 @2b27883
+++ b/sherpa-onnx/csrc/offline-source-separation-spleeter-model-meta-data.h
查看文件 @2b27883
 // sherpa-onnx/csrc/offline-source-separation-spleeter-model-meta-data.h
 //
-// Copyright (c)  2024  Xiaomi Corporation
+// Copyright (c)  2025  Xiaomi Corporation
 #ifndef SHERPA_ONNX_CSRC_OFFLINE_SOURCE_SEPARATION_SPLEETER_MODEL_META_DATA_H_
 #define SHERPA_ONNX_CSRC_OFFLINE_SOURCE_SEPARATION_SPLEETER_MODEL_META_DATA_H_
--- a/sherpa-onnx/csrc/offline-source-separation-uvr-impl.h 0 → 100644
查看文件 @2b27883
+++ b/sherpa-onnx/csrc/offline-source-separation-uvr-impl.h 0 → 100644
查看文件 @2b27883
+// sherpa-onnx/csrc/offline-source-separation-uvr-impl.h
+//
+// Copyright (c)  2025  Xiaomi Corporation
+
+#ifndef SHERPA_ONNX_CSRC_OFFLINE_SOURCE_SEPARATION_UVR_IMPL_H_
+#define SHERPA_ONNX_CSRC_OFFLINE_SOURCE_SEPARATION_UVR_IMPL_H_
+
+#include <algorithm>
+#include <utility>
+#include <vector>
+
+#include "Eigen/Dense"
+#include "kaldi-native-fbank/csrc/istft.h"
+#include "kaldi-native-fbank/csrc/stft.h"
+#include "sherpa-onnx/csrc/macros.h"
+#include "sherpa-onnx/csrc/offline-source-separation-uvr-model.h"
+#include "sherpa-onnx/csrc/offline-source-separation.h"
+#include "sherpa-onnx/csrc/onnx-utils.h"
+#include "sherpa-onnx/csrc/resample.h"
+
+namespace sherpa_onnx {
+
+class OfflineSourceSeparationUvrImpl : public OfflineSourceSeparationImpl {
+ public:
+  explicit OfflineSourceSeparationUvrImpl(
+      const OfflineSourceSeparationConfig &config)
+      : config_(config), model_(config_.model) {}
+
+  template <typename Manager>
+  OfflineSourceSeparationUvrImpl(Manager *mgr,
+                                 const OfflineSourceSeparationConfig &config)
+      : config_(config), model_(mgr, config_.model) {}
+
+  OfflineSourceSeparationOutput Process(
+      const OfflineSourceSeparationInput &_input) const override {
+    auto input = Resample(_input, config_.model.debug);
+
+    auto chunks_ch0 = SplitIntoChunks(input.samples.data[0]);
+
+    std::vector<std::vector<float>> chunks_ch1;
+    if (input.samples.data.size() > 1) {
+      chunks_ch1 = SplitIntoChunks(input.samples.data[1]);
+    }
+
+    std::vector<float> samples_ch0;
+    std::vector<float> samples_ch1;
+
+    for (int32_t i = 0; i != static_cast<int32_t>(chunks_ch0.size()); ++i) {
+      bool is_first_chunk = (i == 0);
+      bool is_last_chunk = (i == static_cast<int32_t>(chunks_ch0.size()) - 1);
+
+      auto s = ProcessChunk(
+          chunks_ch0[i],
+          chunks_ch1.empty() ? std::vector<float>{} : chunks_ch1[i],
+          is_first_chunk, is_last_chunk);
+
+      samples_ch0.insert(samples_ch0.end(), s.first.begin(), s.first.end());
+      samples_ch1.insert(samples_ch1.end(), s.second.begin(), s.second.end());
+    }
+
+    auto &vocals_ch0 = samples_ch0;
+    auto &vocals_ch1 = samples_ch1;
+
+    std::vector<float> non_vocals_ch0(vocals_ch0.size());
+    std::vector<float> non_vocals_ch1(vocals_ch1.size());
+
+    Eigen::Map<Eigen::VectorXf>(non_vocals_ch0.data(), non_vocals_ch0.size()) =
+        Eigen::Map<Eigen::VectorXf>(input.samples.data[0].data(),
+                                    input.samples.data[0].size())
+            .array() -
+        Eigen::Map<Eigen::VectorXf>(vocals_ch0.data(), vocals_ch0.size())
+            .array();
+
+    if (input.samples.data.size() > 1) {
+      Eigen::Map<Eigen::VectorXf>(non_vocals_ch1.data(),
+                                  non_vocals_ch1.size()) =
+          Eigen::Map<Eigen::VectorXf>(input.samples.data[1].data(),
+                                      input.samples.data[1].size())
+              .array() -
+          Eigen::Map<Eigen::VectorXf>(vocals_ch1.data(), vocals_ch1.size())
+              .array();
+    } else {
+      Eigen::Map<Eigen::VectorXf>(non_vocals_ch1.data(),
+                                  non_vocals_ch1.size()) =
+          Eigen::Map<Eigen::VectorXf>(input.samples.data[0].data(),
+                                      input.samples.data[0].size())
+              .array() -
+          Eigen::Map<Eigen::VectorXf>(vocals_ch1.data(), vocals_ch1.size())
+              .array();
+    }
+
+    OfflineSourceSeparationOutput ans;
+    ans.sample_rate = GetOutputSampleRate();
+
+    ans.stems.resize(2);
+    ans.stems[0].data.reserve(2);
+    ans.stems[1].data.reserve(2);
+
+    ans.stems[0].data.push_back(std::move(vocals_ch0));
+    ans.stems[0].data.push_back(std::move(vocals_ch1));
+
+    ans.stems[1].data.push_back(std::move(non_vocals_ch0));
+    ans.stems[1].data.push_back(std::move(non_vocals_ch1));
+
+    return ans;
+  }
+
+  int32_t GetOutputSampleRate() const override {
+    return model_.GetMetaData().sample_rate;
+  }
+
+  int32_t GetNumberOfStems() const override {
+    return model_.GetMetaData().num_stems;
+  }
+
+ private:
+  std::pair<std::vector<float>, std::vector<float>> ProcessChunk(
+      const std::vector<float> &chunk_ch0, const std::vector<float> &chunk_ch1,
+      bool is_first_chunk, bool is_last_chunk) const {
+    int32_t pad0 = 0;
+
+    auto stft_results_ch0 = ComputeStft(chunk_ch0, &pad0);
+
+    int32_t pad1 = pad0;
+    std::vector<knf::StftResult> stft_results_ch1;
+
+    if (!chunk_ch1.empty()) {
+      stft_results_ch1 = ComputeStft(chunk_ch1, &pad1);
+    } else {
+      stft_results_ch1 = stft_results_ch0;
+    }
+
+    const auto &meta_ = model_.GetMetaData();
+
+    int32_t num_frames = stft_results_ch0[0].num_frames;
+    int32_t dim_f = meta_.dim_f;
+    int32_t dim_t = meta_.dim_t;
+    int32_t n_fft_bin = meta_.n_fft / 2 + 1;
+    if (num_frames != dim_t) {
+      SHERPA_ONNX_LOGE("num_frames(%d) != dim_t(%d)", num_frames, dim_t);
+      SHERPA_ONNX_EXIT(-1);
+    }
+
+    // the first 2: number of channels
+    // the second 2: real and image
+    std::vector<float> x(stft_results_ch0.size() * 2 * 2 * dim_f * dim_t);
+    float *px = x.data();
+
+    for (int32_t i = 0; i != static_cast<int32_t>(stft_results_ch0.size());
+         ++i) {
+      const auto &ch0 = stft_results_ch0[i];
+      const auto &ch1 = stft_results_ch1[i];
+
+      const float *p_real_ch0 = ch0.real.data();
+      const float *p_imag_ch0 = ch0.imag.data();
+
+      const float *p_real_ch1 = ch1.real.data();
+      const float *p_imag_ch1 = ch1.imag.data();
+
+      for (int32_t j = 0; j != dim_f; ++j) {
+        for (int32_t k = 0; k != num_frames; ++k) {
+          *px = p_real_ch0[k * n_fft_bin + j];
+          ++px;
+        }
+      }
+
+      for (int32_t j = 0; j != dim_f; ++j) {
+        for (int32_t k = 0; k != num_frames; ++k) {
+          *px = p_imag_ch0[k * n_fft_bin + j];
+          ++px;
+        }
+      }
+
+      for (int32_t j = 0; j != dim_f; ++j) {
+        for (int32_t k = 0; k != num_frames; ++k) {
+          *px = p_real_ch1[k * n_fft_bin + j];
+          ++px;
+        }
+      }
+
+      for (int32_t j = 0; j != dim_f; ++j) {
+        for (int32_t k = 0; k != num_frames; ++k) {
+          *px = p_imag_ch1[k * n_fft_bin + j];
+          ++px;
+        }
+      }
+    }  // for (int32_t i = 0; i !=
+
+    auto memory_info =
+        Ort::MemoryInfo::CreateCpu(OrtDeviceAllocator, OrtMemTypeDefault);
+
+    std::array<int64_t, 4> x_shape{
+        static_cast<int32_t>(stft_results_ch0.size()) * 4 / meta_.dim_c,
+        meta_.dim_c, dim_f, dim_t};
+
+    Ort::Value x_tensor = Ort::Value::CreateTensor(
+        memory_info, x.data(), x.size(), x_shape.data(), x_shape.size());
+
+    Ort::Value spec = model_.Run(std::move(x_tensor));
+
+    const float *p_spec = spec.GetTensorData<float>();
+
+    for (int32_t i = 0; i != static_cast<int32_t>(stft_results_ch0.size());
+         ++i) {
+      auto &ch0 = stft_results_ch0[i];
+      auto &ch1 = stft_results_ch1[i];
+
+      float *p_real_ch0 = ch0.real.data();
+      float *p_imag_ch0 = ch0.imag.data();
+
+      float *p_real_ch1 = ch1.real.data();
+      float *p_imag_ch1 = ch1.imag.data();
+
+      for (int32_t j = 0; j != dim_f; ++j) {
+        for (int32_t k = 0; k != num_frames; ++k) {
+          p_real_ch0[k * n_fft_bin + j] = *p_spec;
+          ++p_spec;
+        }
+      }
+
+      for (int32_t j = 0; j != dim_f; ++j) {
+        for (int32_t k = 0; k != num_frames; ++k) {
+          p_imag_ch0[k * n_fft_bin + j] = *p_spec;
+          ++p_spec;
+        }
+      }
+
+      for (int32_t j = 0; j != dim_f; ++j) {
+        for (int32_t k = 0; k != num_frames; ++k) {
+          p_real_ch1[k * n_fft_bin + j] = *p_spec;
+          ++p_spec;
+        }
+      }
+
+      for (int32_t j = 0; j != dim_f; ++j) {
+        for (int32_t k = 0; k != num_frames; ++k) {
+          p_imag_ch1[k * n_fft_bin + j] = *p_spec;
+          ++p_spec;
+        }
+      }
+
+      for (int32_t k = 0; k != num_frames; ++k) {
+        for (int32_t j = dim_f; j != n_fft_bin; ++j) {
+          p_real_ch0[k * n_fft_bin + j] = 0;
+          p_real_ch1[k * n_fft_bin + j] = 0;
+
+          p_imag_ch0[k * n_fft_bin + j] = 0;
+          p_imag_ch1[k * n_fft_bin + j] = 0;
+        }
+      }
+    }
+
+    auto samples_ch0 = ComputeInverseStft(stft_results_ch0, pad0,
+                                          is_first_chunk, is_last_chunk);
+
+    auto samples_ch1 = ComputeInverseStft(stft_results_ch1, pad1,
+                                          is_first_chunk, is_last_chunk);
+
+    return {std::move(samples_ch0), std::move(samples_ch1)};
+  }
+
+  std::vector<float> ComputeInverseStft(
+      const std::vector<knf::StftResult> &stft_result, int32_t pad,
+      bool is_first_chunk, bool is_last_chunk) const {
+    const auto &meta_ = model_.GetMetaData();
+    int32_t trim = meta_.n_fft / 2;
+
+    int32_t margin = meta_.margin;
+
+    int32_t chunk_size = meta_.num_chunks * meta_.sample_rate;
+
+    if (margin > chunk_size) {
+      margin = chunk_size;
+    }
+
+    auto stft_config = GetStftConfig();
+    knf::IStft istft(stft_config);
+
+    std::vector<float> ans;
+
+    for (int32_t i = 0; i != static_cast<int32_t>(stft_result.size()); ++i) {
+      auto samples = istft.Compute(stft_result[i]);
+      int32_t num_samples = static_cast<int32_t>(samples.size());
+
+      ans.insert(ans.end(), samples.begin() + trim,
+                 samples.begin() + (num_samples - trim));
+    }
+
+    int32_t start = is_first_chunk ? 0 : margin;
+    int32_t end =
+        is_last_chunk ? (ans.size() - pad) : (ans.size() - pad - margin);
+
+    return {ans.begin() + start, ans.begin() + end};
+  }
+
+  std::vector<knf::StftResult> ComputeStft(const std::vector<float> &chunk,
+                                           int32_t *pad) const {
+    const auto &meta_ = model_.GetMetaData();
+
+    int32_t num_samples = static_cast<int32_t>(chunk.size());
+    int32_t trim = meta_.n_fft / 2;
+    int32_t chunk_size = meta_.hop_length * (meta_.dim_t - 1);
+    int32_t gen_size = chunk_size - 2 * trim;
+    *pad = gen_size - num_samples % gen_size;
+
+    std::vector<float> samples(trim + chunk.size() + *pad + trim);
+    std::copy(chunk.begin(), chunk.end(), samples.begin() + trim);
+
+    auto stft_config = GetStftConfig();
+    knf::Stft stft(stft_config);
+
+    std::vector<knf::StftResult> stft_results;
+    // split the chunk into short segments
+    for (int32_t i = 0; i < num_samples + *pad; i += gen_size) {
+      auto r = stft.Compute(samples.data() + i, chunk_size);
+      stft_results.push_back(std::move(r));
+    }
+
+    return stft_results;
+  }
+
+  std::vector<std::vector<float>> SplitIntoChunks(
+      const std::vector<float> &samples) const {
+    std::vector<std::vector<float>> ans;
+
+    if (samples.empty()) {
+      return ans;
+    }
+
+    const auto &meta_ = model_.GetMetaData();
+    int32_t margin = meta_.margin;
+
+    int32_t chunk_size = meta_.num_chunks * meta_.sample_rate;
+
+    if (static_cast<int32_t>(samples.size()) < chunk_size) {
+      chunk_size = samples.size();
+    }
+
+    if (margin > chunk_size) {
+      margin = chunk_size;
+    }
+
+    for (int32_t i = 0; i < static_cast<int32_t>(samples.size());
+         i += chunk_size) {
+      int32_t start = std::max<int32_t>(0, i - margin);
+      int32_t end = std::min<int32_t>(i + chunk_size + margin,
+                                      static_cast<int32_t>(samples.size()));
+      if (start >= end) {
+        break;
+      }
+
+      ans.emplace_back(samples.begin() + start, samples.begin() + end);
+
+      if (end == static_cast<int32_t>(samples.size())) {
+        break;
+      }
+    }
+
+    return ans;
+  }
+
+  knf::StftConfig GetStftConfig() const {
+    const auto &meta = model_.GetMetaData();
+
+    knf::StftConfig stft_config;
+    stft_config.n_fft = meta.n_fft;
+    stft_config.hop_length = meta.hop_length;
+    stft_config.win_length = meta.window_length;
+    stft_config.window_type = meta.window_type;
+    stft_config.center = meta.center;
+
+    return stft_config;
+  }
+
+ private:
+  OfflineSourceSeparationConfig config_;
+  OfflineSourceSeparationUvrModel model_;
+};
+
+}  // namespace sherpa_onnx
+
+#endif  // SHERPA_ONNX_CSRC_OFFLINE_SOURCE_SEPARATION_UVR_IMPL_H_
--- a/sherpa-onnx/csrc/offline-source-separation-uvr-model-config.cc 0 → 100644
查看文件 @2b27883
+++ b/sherpa-onnx/csrc/offline-source-separation-uvr-model-config.cc 0 → 100644
查看文件 @2b27883
+// sherpa-onnx/csrc/offline-source-separation-uvr-model-config.cc
+//
+// Copyright (c)  2025  Xiaomi Corporation
+
+#include "sherpa-onnx/csrc/offline-source-separation-uvr-model-config.h"
+
+#include "sherpa-onnx/csrc/file-utils.h"
+#include "sherpa-onnx/csrc/macros.h"
+
+namespace sherpa_onnx {
+
+void OfflineSourceSeparationUvrModelConfig::Register(ParseOptions *po) {
+  po->Register("uvr-model", &model, "Path to the UVR model");
+}
+
+bool OfflineSourceSeparationUvrModelConfig::Validate() const {
+  if (model.empty()) {
+    SHERPA_ONNX_LOGE("Please provide --uvr-model");
+    return false;
+  }
+
+  if (!FileExists(model)) {
+    SHERPA_ONNX_LOGE("UVR model '%s' does not exist. ", model.c_str());
+    return false;
+  }
+
+  return true;
+}
+
+std::string OfflineSourceSeparationUvrModelConfig::ToString() const {
+  std::ostringstream os;
+
+  os << "OfflineSourceSeparationUvrModelConfig(";
+  os << "model=\"" << model << "\")";
+
+  return os.str();
+}
+
+}  // namespace sherpa_onnx
--- a/sherpa-onnx/csrc/offline-source-separation-uvr-model-config.h 0 → 100644
查看文件 @2b27883
+++ b/sherpa-onnx/csrc/offline-source-separation-uvr-model-config.h 0 → 100644
查看文件 @2b27883
+// sherpa-onnx/csrc/offline-source-separation-uvr-model-config.h
+//
+// Copyright (c)  2025  Xiaomi Corporation
+
+#ifndef SHERPA_ONNX_CSRC_OFFLINE_SOURCE_SEPARATION_UVR_MODEL_CONFIG_H_
+#define SHERPA_ONNX_CSRC_OFFLINE_SOURCE_SEPARATION_UVR_MODEL_CONFIG_H_
+
+#include <string>
+
+#include "sherpa-onnx/csrc/offline-source-separation-uvr-model-config.h"
+#include "sherpa-onnx/csrc/parse-options.h"
+
+namespace sherpa_onnx {
+
+struct OfflineSourceSeparationUvrModelConfig {
+  std::string model;
+
+  OfflineSourceSeparationUvrModelConfig() = default;
+
+  explicit OfflineSourceSeparationUvrModelConfig(const std::string &model)
+      : model(model) {}
+
+  void Register(ParseOptions *po);
+
+  bool Validate() const;
+
+  std::string ToString() const;
+};
+
+}  // namespace sherpa_onnx
+
+#endif  // SHERPA_ONNX_CSRC_OFFLINE_SOURCE_SEPARATION_UVR_MODEL_CONFIG_H_
--- a/sherpa-onnx/csrc/offline-source-separation-uvr-model-meta-data.h 0 → 100644
查看文件 @2b27883
+++ b/sherpa-onnx/csrc/offline-source-separation-uvr-model-meta-data.h 0 → 100644
查看文件 @2b27883
+// sherpa-onnx/csrc/offline-source-separation-uvr-model-meta-data.h
+//
+// Copyright (c)  2025  Xiaomi Corporation
+#ifndef SHERPA_ONNX_CSRC_OFFLINE_SOURCE_SEPARATION_UVR_MODEL_META_DATA_H_
+#define SHERPA_ONNX_CSRC_OFFLINE_SOURCE_SEPARATION_UVR_MODEL_META_DATA_H_
+
+#include <string>
+#include <unordered_map>
+#include <vector>
+
+namespace sherpa_onnx {
+
+// See also
+// https://github.com/k2-fsa/sherpa-onnx/blob/master/scripts/uvr_mdx/test.py
+// https://github.com/k2-fsa/sherpa-onnx/blob/master/scripts/uvr_mdx/add_meta_data_and_quantize.py
+struct OfflineSourceSeparationUvrModelMetaData {
+  int32_t sample_rate = 44100;
+  int32_t num_stems = 2;
+  int32_t dim_c = -1;
+  int32_t dim_f = -1;
+  int32_t dim_t = -1;
+
+  int32_t n_fft = -1;
+  int32_t hop_length = 1024;
+
+  int32_t window_length = -1;
+  int32_t center = 1;
+  std::string window_type = "hann";
+
+  // the following fields are preconfigured. Please see
+  // https://github.com/k2-fsa/sherpa-onnx/blob/master/scripts/uvr_mdx/test.py
+  int32_t margin = 0;  // changed in ./offline-source-separation-uvr-model.cc
+  const int32_t num_chunks = 15;
+};
+
+}  // namespace sherpa_onnx
+
+#endif  // SHERPA_ONNX_CSRC_OFFLINE_SOURCE_SEPARATION_UVR_MODEL_META_DATA_H_
--- a/sherpa-onnx/csrc/offline-source-separation-uvr-model.cc 0 → 100644
查看文件 @2b27883
+++ b/sherpa-onnx/csrc/offline-source-separation-uvr-model.cc 0 → 100644
查看文件 @2b27883
+// sherpa-onnx/csrc/offline-source-separation-uvr-model.cc
+//
+// Copyright (c)  2025  Xiaomi Corporation
+
+#include "sherpa-onnx/csrc/offline-source-separation-uvr-model.h"
+
+#include <memory>
+#include <string>
+#include <utility>
+#include <vector>
+
+#if __ANDROID_API__ >= 9
+#include "android/asset_manager.h"
+#include "android/asset_manager_jni.h"
+#endif
+
+#if __OHOS__
+#include "rawfile/raw_file_manager.h"
+#endif
+
+#include "sherpa-onnx/csrc/file-utils.h"
+#include "sherpa-onnx/csrc/onnx-utils.h"
+#include "sherpa-onnx/csrc/session.h"
+#include "sherpa-onnx/csrc/text-utils.h"
+
+namespace sherpa_onnx {
+
+class OfflineSourceSeparationUvrModel::Impl {
+ public:
+  explicit Impl(const OfflineSourceSeparationModelConfig &config)
+      : config_(config),
+        env_(ORT_LOGGING_LEVEL_ERROR),
+        sess_opts_(GetSessionOptions(config)),
+        allocator_{} {
+    auto buf = ReadFile(config.uvr.model);
+    Init(buf.data(), buf.size());
+  }
+
+  template <typename Manager>
+  Impl(Manager *mgr, const OfflineSourceSeparationModelConfig &config)
+      : config_(config),
+        env_(ORT_LOGGING_LEVEL_ERROR),
+        sess_opts_(GetSessionOptions(config)),
+        allocator_{} {
+    auto buf = ReadFile(mgr, config.uvr.model);
+    Init(buf.data(), buf.size());
+  }
+
+  const OfflineSourceSeparationUvrModelMetaData &GetMetaData() const {
+    return meta_;
+  }
+
+  Ort::Value Run(Ort::Value x) const {
+    auto out = sess_->Run({}, input_names_ptr_.data(), &x, 1,
+                          output_names_ptr_.data(), output_names_ptr_.size());
+    return std::move(out[0]);
+  }
+
+ private:
+  void Init(void *model_data, size_t model_data_length) {
+    sess_ = std::make_unique<Ort::Session>(env_, model_data, model_data_length,
+                                           sess_opts_);
+
+    GetInputNames(sess_.get(), &input_names_, &input_names_ptr_);
+
+    GetOutputNames(sess_.get(), &output_names_, &output_names_ptr_);
+
+    Ort::ModelMetadata meta_data = sess_->GetModelMetadata();
+    if (config_.debug) {
+      std::ostringstream os;
+      os << "---UVR model---\n";
+      PrintModelMetadata(os, meta_data);
+
+      os << "----------input names----------\n";
+      int32_t i = 0;
+      for (const auto &s : input_names_) {
+        os << i << " " << s << "\n";
+        ++i;
+      }
+      os << "----------output names----------\n";
+      i = 0;
+      for (const auto &s : output_names_) {
+        os << i << " " << s << "\n";
+        ++i;
+      }
+
+#if __OHOS__
+      SHERPA_ONNX_LOGE("%{public}s\n", os.str().c_str());
+#else
+      SHERPA_ONNX_LOGE("%s\n", os.str().c_str());
+#endif
+    }
+
+    Ort::AllocatorWithDefaultOptions allocator;  // used in the macro below
+
+    std::string model_type;
+    SHERPA_ONNX_READ_META_DATA_STR(model_type, "model_type");
+    if (model_type != "UVR") {
+      SHERPA_ONNX_LOGE("Expect model type 'UVR'. Given: '%s'",
+                       model_type.c_str());
+      SHERPA_ONNX_EXIT(-1);
+    }
+
+    SHERPA_ONNX_READ_META_DATA(meta_.num_stems, "stems");
+    if (meta_.num_stems != 2) {
+      SHERPA_ONNX_LOGE("Only 2stems is supported. Given %d stems",
+                       meta_.num_stems);
+      SHERPA_ONNX_EXIT(-1);
+    }
+
+    SHERPA_ONNX_READ_META_DATA(meta_.sample_rate, "sample_rate");
+    SHERPA_ONNX_READ_META_DATA(meta_.n_fft, "n_fft");
+    SHERPA_ONNX_READ_META_DATA(meta_.center, "center");
+    SHERPA_ONNX_READ_META_DATA(meta_.window_length, "win_length");
+    SHERPA_ONNX_READ_META_DATA(meta_.hop_length, "hop_length");
+    SHERPA_ONNX_READ_META_DATA(meta_.dim_t, "dim_t");
+    SHERPA_ONNX_READ_META_DATA(meta_.dim_f, "dim_f");
+    SHERPA_ONNX_READ_META_DATA(meta_.dim_c, "dim_c");
+    SHERPA_ONNX_READ_META_DATA_STR(meta_.window_type, "window_type");
+
+    meta_.margin = meta_.sample_rate;
+  }
+
+ private:
+  OfflineSourceSeparationModelConfig config_;
+  OfflineSourceSeparationUvrModelMetaData meta_;
+
+  Ort::Env env_;
+  Ort::SessionOptions sess_opts_;
+  Ort::AllocatorWithDefaultOptions allocator_;
+
+  std::unique_ptr<Ort::Session> sess_;
+
+  std::vector<std::string> input_names_;
+  std::vector<const char *> input_names_ptr_;
+
+  std::vector<std::string> output_names_;
+  std::vector<const char *> output_names_ptr_;
+};
+
+OfflineSourceSeparationUvrModel::~OfflineSourceSeparationUvrModel() = default;
+
+OfflineSourceSeparationUvrModel::OfflineSourceSeparationUvrModel(
+    const OfflineSourceSeparationModelConfig &config)
+    : impl_(std::make_unique<Impl>(config)) {}
+
+template <typename Manager>
+OfflineSourceSeparationUvrModel::OfflineSourceSeparationUvrModel(
+    Manager *mgr, const OfflineSourceSeparationModelConfig &config)
+    : impl_(std::make_unique<Impl>(mgr, config)) {}
+
+Ort::Value OfflineSourceSeparationUvrModel::Run(Ort::Value x) const {
+  return impl_->Run(std::move(x));
+}
+
+const OfflineSourceSeparationUvrModelMetaData &
+OfflineSourceSeparationUvrModel::GetMetaData() const {
+  return impl_->GetMetaData();
+}
+
+#if __ANDROID_API__ >= 9
+template OfflineSourceSeparationUvrModel::OfflineSourceSeparationUvrModel(
+    AAssetManager *mgr, const OfflineSourceSeparationModelConfig &config);
+#endif
+
+#if __OHOS__
+template OfflineSourceSeparationUvrModel::OfflineSourceSeparationUvrModel(
+    NativeResourceManager *mgr,
+    const OfflineSourceSeparationModelConfig &config);
+#endif
+
+}  // namespace sherpa_onnx
--- a/sherpa-onnx/csrc/offline-source-separation-uvr-model.h 0 → 100644
查看文件 @2b27883
+++ b/sherpa-onnx/csrc/offline-source-separation-uvr-model.h 0 → 100644
查看文件 @2b27883
+// sherpa-onnx/csrc/offline-source-separation-uvr-model.h
+//
+// Copyright (c)  2025  Xiaomi Corporation
+#ifndef SHERPA_ONNX_CSRC_OFFLINE_SOURCE_SEPARATION_UVR_MODEL_H_
+#define SHERPA_ONNX_CSRC_OFFLINE_SOURCE_SEPARATION_UVR_MODEL_H_
+#include <memory>
+
+#include "onnxruntime_cxx_api.h"  // NOLINT
+#include "sherpa-onnx/csrc/offline-source-separation-model-config.h"
+#include "sherpa-onnx/csrc/offline-source-separation-uvr-model-meta-data.h"
+
+namespace sherpa_onnx {
+
+class OfflineSourceSeparationUvrModel {
+ public:
+  ~OfflineSourceSeparationUvrModel();
+
+  explicit OfflineSourceSeparationUvrModel(
+      const OfflineSourceSeparationModelConfig &config);
+
+  template <typename Manager>
+  OfflineSourceSeparationUvrModel(
+      Manager *mgr, const OfflineSourceSeparationModelConfig &config);
+
+  Ort::Value Run(Ort::Value x) const;
+
+  const OfflineSourceSeparationUvrModelMetaData &GetMetaData() const;
+
+ private:
+  class Impl;
+  std::unique_ptr<Impl> impl_;
+};
+
+}  // namespace sherpa_onnx
+
+#endif  // SHERPA_ONNX_CSRC_OFFLINE_SOURCE_SEPARATION_UVR_MODEL_H_
--- a/sherpa-onnx/csrc/offline-source-separation.h
查看文件 @2b27883
+++ b/sherpa-onnx/csrc/offline-source-separation.h
查看文件 @2b27883
@@ -19,7 +19,8 @@ struct OfflineSourceSeparationConfig {
   OfflineSourceSeparationConfig() = default;
-  OfflineSourceSeparationConfig(const OfflineSourceSeparationModelConfig &model)
+  explicit OfflineSourceSeparationConfig(
+      const OfflineSourceSeparationModelConfig &model)
       : model(model) {}
   void Register(ParseOptions *po);
@@ -54,7 +55,7 @@ class OfflineSourceSeparation {
  public:
   ~OfflineSourceSeparation();
-  OfflineSourceSeparation(const OfflineSourceSeparationConfig &config);
+  explicit OfflineSourceSeparation(const OfflineSourceSeparationConfig &config);
   template <typename Manager>
   OfflineSourceSeparation(Manager *mgr,
--- a/sherpa-onnx/csrc/sherpa-onnx-keyword-spotter-microphone.cc
查看文件 @2b27883
+++ b/sherpa-onnx/csrc/sherpa-onnx-keyword-spotter-microphone.cc
查看文件 @2b27883
@@ -101,8 +101,8 @@ for a list of pre-trained models to download.
     mic_sample_rate = atof(pSampleRateStr);
   }
-  if(!mic.OpenDevice(device_index, mic_sample_rate, 1,
-                RecordCallback, s.get())) {
+  if (!mic.OpenDevice(device_index, mic_sample_rate, 1, RecordCallback,
+                      s.get())) {
     fprintf(stderr, "portaudio error: %d\n", device_index);
     exit(EXIT_FAILURE);
   }
--- a/sherpa-onnx/csrc/sherpa-onnx-microphone-offline-audio-tagging.cc
查看文件 @2b27883
+++ b/sherpa-onnx/csrc/sherpa-onnx-microphone-offline-audio-tagging.cc
查看文件 @2b27883
@@ -142,8 +142,8 @@ for more models.
     mic_sample_rate = atof(pSampleRateStr);
   }
-  if (!mic.OpenDevice(device_index, mic_sample_rate, 1,
-                 RecordCallback, nullptr /* user_data */)){
+  if (!mic.OpenDevice(device_index, mic_sample_rate, 1, RecordCallback,
+                      nullptr /* user_data */)) {
     fprintf(stderr, "portaudio error: %d\n", device_index);
     exit(EXIT_FAILURE);
   }
--- a/sherpa-onnx/csrc/sherpa-onnx-microphone-offline-speaker-identification.cc
查看文件 @2b27883
+++ b/sherpa-onnx/csrc/sherpa-onnx-microphone-offline-speaker-identification.cc
查看文件 @2b27883
@@ -244,8 +244,8 @@ Note that `zh` means Chinese, while `en` means English.
     mic_sample_rate = atof(pSampleRateStr);
   }
-  if (!mic.OpenDevice(device_index, mic_sample_rate, 1,
-                 RecordCallback, nullptr /* user_data */)){
+  if (!mic.OpenDevice(device_index, mic_sample_rate, 1, RecordCallback,
+                      nullptr /* user_data */)) {
     fprintf(stderr, "portaudio error: %d\n", device_index);
     exit(EXIT_FAILURE);
   }
--- a/sherpa-onnx/csrc/sherpa-onnx-microphone-offline.cc
查看文件 @2b27883
+++ b/sherpa-onnx/csrc/sherpa-onnx-microphone-offline.cc
查看文件 @2b27883
@@ -159,8 +159,8 @@ for a list of pre-trained models to download.
     mic_sample_rate = atof(pSampleRateStr);
   }
-  if (!mic.OpenDevice(device_index, mic_sample_rate, 1,
-                 RecordCallback, nullptr /* user_data */)){
+  if (!mic.OpenDevice(device_index, mic_sample_rate, 1, RecordCallback,
+                      nullptr /* user_data */)) {
     fprintf(stderr, "portaudio error: %d\n", device_index);
     exit(EXIT_FAILURE);
   }
--- a/sherpa-onnx/csrc/sherpa-onnx-microphone.cc
查看文件 @2b27883
+++ b/sherpa-onnx/csrc/sherpa-onnx-microphone.cc
查看文件 @2b27883
@@ -129,8 +129,8 @@ for a list of pre-trained models to download.
     mic_sample_rate = atof(pSampleRateStr);
   }
-  if (!mic.OpenDevice(device_index, mic_sample_rate, 1,
-                 RecordCallback, nullptr /* user_data */)){
+  if (!mic.OpenDevice(device_index, mic_sample_rate, 1, RecordCallback,
+                      nullptr /* user_data */)) {
     fprintf(stderr, "portaudio error: %d\n", device_index);
     exit(EXIT_FAILURE);
   }
--- a/sherpa-onnx/csrc/sherpa-onnx-offline-source-separation.cc
查看文件 @2b27883
+++ b/sherpa-onnx/csrc/sherpa-onnx-offline-source-separation.cc
查看文件 @2b27883
@@ -33,6 +33,17 @@ wget https://github.com/k2-fsa/sherpa-onnx/releases/download/source-separation-m
   --input-wav=audio_example.wav \
   --output-vocals-wav=output_vocals.wav \
   --output-accompaniment-wav=output_accompaniment.wav
+
+(2) Use UVR models
+
+wget https://github.com/k2-fsa/sherpa-onnx/releases/download/source-separation-models/UVR_MDXNET_1_9703.onnx
+wget https://github.com/k2-fsa/sherpa-onnx/releases/download/source-separation-models/audio_example.wav
+
+./bin/sherpa-onnx-offline-source-separation \
+  --uvr-model=./UVR_MDXNET_1_9703.onnx \
+  --input-wav=audio_example.wav \
+  --output-vocals-wav=output_vocals.wav \
+  --output-accompaniment-wav=output_accompaniment.wav
 )usage";
   sherpa_onnx::ParseOptions po(kUsageMessage);
--- a/sherpa-onnx/csrc/sherpa-onnx-vad-microphone-offline-asr.cc
查看文件 @2b27883
+++ b/sherpa-onnx/csrc/sherpa-onnx-vad-microphone-offline-asr.cc
查看文件 @2b27883
@@ -136,7 +136,8 @@ to download models for offline ASR.
     mic_sample_rate = atof(pSampleRateStr);
   }
-  if (!mic.OpenDevice(device_index, mic_sample_rate, 1, RecordCallback, nullptr)) {
+  if (!mic.OpenDevice(device_index, mic_sample_rate, 1, RecordCallback,
+                      nullptr)) {
     fprintf(stderr, "Failed to open device %d\n", device_index);
     exit(EXIT_FAILURE);
   }
--- a/sherpa-onnx/csrc/sherpa-onnx-vad-microphone.cc
查看文件 @2b27883
+++ b/sherpa-onnx/csrc/sherpa-onnx-vad-microphone.cc
查看文件 @2b27883
@@ -74,7 +74,6 @@ wget https://github.com/snakers4/silero-vad/raw/master/src/silero_vad/data/siler
   sherpa_onnx::Microphone mic;
-
   int32_t device_index = Pa_GetDefaultInputDevice();
   if (device_index == paNoDevice) {
     fprintf(stderr, "No default input device found\n");
@@ -96,7 +95,8 @@ wget https://github.com/snakers4/silero-vad/raw/master/src/silero_vad/data/siler
     fprintf(stderr, "Use sample rate %f for mic\n", mic_sample_rate);
     mic_sample_rate = atof(pSampleRateStr);
   }
-  if (!mic.OpenDevice(device_index, mic_sample_rate, 1, RecordCallback, nullptr)) {
+  if (!mic.OpenDevice(device_index, mic_sample_rate, 1, RecordCallback,
+                      nullptr)) {
     fprintf(stderr, "Failed to open microphone device %d\n", device_index);
     exit(EXIT_FAILURE);
   }
--- a/sherpa-onnx/jni/offline-tts.cc
查看文件 @2b27883
+++ b/sherpa-onnx/jni/offline-tts.cc
查看文件 @2b27883
@@ -5,6 +5,7 @@
 #include "sherpa-onnx/csrc/offline-tts.h"
 #include "sherpa-onnx/csrc/macros.h"
+#include "sherpa-onnx/csrc/text-utils.h"
 #include "sherpa-onnx/csrc/wave-writer.h"
 #include "sherpa-onnx/jni/common.h"
@@ -207,7 +208,10 @@ JNIEXPORT jlong JNICALL Java_com_k2fsa_sherpa_onnx_OfflineTts_newFromAsset(
   }
 #endif
   auto config = sherpa_onnx::GetOfflineTtsConfig(env, _config);
-  SHERPA_ONNX_LOGE("config:\n%s", config.ToString().c_str());
+  auto str_vec = sherpa_onnx::SplitString(config.ToString(), 128);
+  for (const auto &s : str_vec) {
+    SHERPA_ONNX_LOGE("%s", s.c_str());
+  }
   auto tts = new sherpa_onnx::OfflineTts(
 #if __ANDROID_API__ >= 9