Add C++ and Python API for FireRedASR AED models (#1867)

Fangjun Kuang · GitHub
Commit 316424b3825db2ac474042917a9c0d9bf4d8c84f 316424b3 1 parent 2337169e
.gitignore
python-api-examples/offline-fire-red-asr-decode-files.py
sherpa-onnx/csrc/CMakeLists.txt
sherpa-onnx/csrc/offline-fire-red-asr-decoder.h
sherpa-onnx/csrc/offline-fire-red-asr-greedy-search-decoder.cc
sherpa-onnx/csrc/offline-fire-red-asr-greedy-search-decoder.h
sherpa-onnx/csrc/offline-fire-red-asr-model-config.cc
sherpa-onnx/csrc/offline-fire-red-asr-model-config.h
sherpa-onnx/csrc/offline-fire-red-asr-model-meta-data.h
sherpa-onnx/csrc/offline-fire-red-asr-model.cc
sherpa-onnx/csrc/offline-fire-red-asr-model.h
sherpa-onnx/csrc/offline-model-config.cc
sherpa-onnx/csrc/offline-model-config.h
sherpa-onnx/csrc/offline-recognizer-fire-red-asr-impl.h
sherpa-onnx/csrc/offline-recognizer-impl.cc
sherpa-onnx/python/csrc/CMakeLists.txt
sherpa-onnx/python/csrc/offline-fire-red-asr-model-config.cc
sherpa-onnx/python/csrc/offline-fire-red-asr-model-config.h
sherpa-onnx/python/csrc/offline-model-config.cc
sherpa-onnx/python/sherpa_onnx/offline_recognizer.py
--- a/.gitignore
查看文件 @316424b
+++ b/.gitignore
查看文件 @316424b
@@ -133,3 +133,4 @@ lexicon.txt
 us_gold.json
 us_silver.json
 kokoro-multi-lang-v1_0
+ sherpa-onnx-fire-red-asr-large-zh_en-2025-02-16
--- a/python-api-examples/offline-fire-red-asr-decode-files.py 0 → 100644
查看文件 @316424b
+++ b/python-api-examples/offline-fire-red-asr-decode-files.py 0 → 100644
查看文件 @316424b
+ #!/usr/bin/env python3
+ 
+ """
+ This file shows how to use a non-streaming FireRedAsr AED model from
+ https://github.com/FireRedTeam/FireRedASR
+ to decode files.
+ 
+ Please download model files from
+ https://github.com/k2-fsa/sherpa-onnx/releases/tag/asr-models
+ 
+ For instance,
+ 
+ wget https://github.com/k2-fsa/sherpa-onnx/releases/download/asr-models/sherpa-onnx-fire-red-asr-large-zh_en-2025-02-16.tar.bz2
+ tar xvf sherpa-onnx-fire-red-asr-large-zh_en-2025-02-16.tar.bz2
+ rm sherpa-onnx-fire-red-asr-large-zh_en-2025-02-16.tar.bz2
+ """
+ 
+ from pathlib import Path
+ 
+ import sherpa_onnx
+ import soundfile as sf
+ 
+ 
+ def create_recognizer():
+     encoder = "./sherpa-onnx-fire-red-asr-large-zh_en-2025-02-16/encoder.int8.onnx"
+     decoder = "./sherpa-onnx-fire-red-asr-large-zh_en-2025-02-16/decoder.int8.onnx"
+     tokens = "./sherpa-onnx-fire-red-asr-large-zh_en-2025-02-16/tokens.txt"
+     test_wav = "./sherpa-onnx-fire-red-asr-large-zh_en-2025-02-16/test_wavs/0.wav"
+     #  test_wav = "./sherpa-onnx-fire-red-asr-large-zh_en-2025-02-16/test_wavs/1.wav"
+     #  test_wav = "./sherpa-onnx-fire-red-asr-large-zh_en-2025-02-16/test_wavs/2.wav"
+     #  test_wav = "./sherpa-onnx-fire-red-asr-large-zh_en-2025-02-16/test_wavs/3.wav"
+     #  test_wav = "./sherpa-onnx-fire-red-asr-large-zh_en-2025-02-16/test_wavs/8k.wav"
+     #  test_wav = "./sherpa-onnx-fire-red-asr-large-zh_en-2025-02-16/test_wavs/3-sichuan.wav"
+     #  test_wav = "./sherpa-onnx-fire-red-asr-large-zh_en-2025-02-16/test_wavs/4-tianjin.wav"
+     #  test_wav = "./sherpa-onnx-fire-red-asr-large-zh_en-2025-02-16/test_wavs/5-henan.wav"
+ 
+     if (
+         not Path(encoder).is_file()
+         or not Path(decoder).is_file()
+         or not Path(test_wav).is_file()
+     ):
+         raise ValueError(
+             """Please download model files from
+             https://github.com/k2-fsa/sherpa-onnx/releases/tag/asr-models
+             """
+         )
+     return (
+         sherpa_onnx.OfflineRecognizer.from_fire_red_asr(
+             encoder=encoder,
+             decoder=decoder,
+             tokens=tokens,
+             debug=True,
+         ),
+         test_wav,
+     )
+ 
+ 
+ def main():
+     recognizer, wave_filename = create_recognizer()
+ 
+     audio, sample_rate = sf.read(wave_filename, dtype="float32", always_2d=True)
+     audio = audio[:, 0]  # only use the first channel
+ 
+     # audio is a 1-D float32 numpy array normalized to the range [-1, 1]
+     # sample_rate does not need to be 16000 Hz
+ 
+     stream = recognizer.create_stream()
+     stream.accept_waveform(sample_rate, audio)
+     recognizer.decode_stream(stream)
+     print(wave_filename)
+     print(stream.result)
+ 
+ 
+ if __name__ == "__main__":
+     main()
--- a/sherpa-onnx/csrc/CMakeLists.txt
查看文件 @316424b
+++ b/sherpa-onnx/csrc/CMakeLists.txt
查看文件 @316424b
@@ -27,6 +27,9 @@ set(sources
   offline-ctc-fst-decoder.cc
   offline-ctc-greedy-search-decoder.cc
   offline-ctc-model.cc
+   offline-fire-red-asr-greedy-search-decoder.cc
+   offline-fire-red-asr-model-config.cc
+   offline-fire-red-asr-model.cc
   offline-lm-config.cc
   offline-lm.cc
   offline-model-config.cc
--- a/sherpa-onnx/csrc/offline-fire-red-asr-decoder.h 0 → 100644
查看文件 @316424b
+++ b/sherpa-onnx/csrc/offline-fire-red-asr-decoder.h 0 → 100644
查看文件 @316424b
+ // sherpa-onnx/csrc/offline-fire-red-asr-decoder.h
+ //
+ // Copyright (c)  2025  Xiaomi Corporation
+ 
+ #ifndef SHERPA_ONNX_CSRC_OFFLINE_FIRE_RED_ASR_DECODER_H_
+ #define SHERPA_ONNX_CSRC_OFFLINE_FIRE_RED_ASR_DECODER_H_
+ 
+ #include <cstdint>
+ #include <vector>
+ 
+ #include "onnxruntime_cxx_api.h"  // NOLINT
+ 
+ namespace sherpa_onnx {
+ 
+ struct OfflineFireRedAsrDecoderResult {
+   /// The decoded token IDs
+   std::vector<int32_t> tokens;
+ };
+ 
+ class OfflineFireRedAsrDecoder {
+  public:
+   virtual ~OfflineFireRedAsrDecoder() = default;
+ 
+   /** Run beam search given the output from the FireRedAsr encoder model.
+    *
+    * @param n_layer_cross_k       A 4-D tensor of shape
+    *                              (num_decoder_layers, N, T, d_model).
+    * @param n_layer_cross_v       A 4-D tensor of shape
+    *                              (num_decoder_layers, N, T, d_model).
+    *
+    * @return Return a vector of size `N` containing the decoded results.
+    */
+   virtual std::vector<OfflineFireRedAsrDecoderResult> Decode(
+       Ort::Value n_layer_cross_k, Ort::Value n_layer_cross_v) = 0;
+ };
+ 
+ }  // namespace sherpa_onnx
+ 
+ #endif  // SHERPA_ONNX_CSRC_OFFLINE_FIRE_RED_ASR_DECODER_H_
--- a/sherpa-onnx/csrc/offline-fire-red-asr-greedy-search-decoder.cc 0 → 100644
查看文件 @316424b
+++ b/sherpa-onnx/csrc/offline-fire-red-asr-greedy-search-decoder.cc 0 → 100644
查看文件 @316424b
+ // sherpa-onnx/csrc/offline-fire-red-asr-greedy-search-decoder.cc
+ //
+ // Copyright (c)  2025  Xiaomi Corporation
+ 
+ #include "sherpa-onnx/csrc/offline-fire-red-asr-greedy-search-decoder.h"
+ 
+ #include <algorithm>
+ #include <tuple>
+ #include <utility>
+ 
+ #include "sherpa-onnx/csrc/macros.h"
+ #include "sherpa-onnx/csrc/onnx-utils.h"
+ 
+ namespace sherpa_onnx {
+ 
+ // Note: this functions works only for batch size == 1 at present
+ std::vector<OfflineFireRedAsrDecoderResult>
+ OfflineFireRedAsrGreedySearchDecoder::Decode(Ort::Value cross_k,
+                                              Ort::Value cross_v) {
+   const auto &meta_data = model_->GetModelMetadata();
+ 
+   auto memory_info =
+       Ort::MemoryInfo::CreateCpu(OrtDeviceAllocator, OrtMemTypeDefault);
+ 
+   // For multilingual models, initial_tokens contains [sot, language, task]
+   //   - language is English by default
+   //   - task is transcribe by default
+   //
+   // For non-multilingual models, initial_tokens contains [sot]
+   std::array<int64_t, 2> token_shape = {1, 1};
+   int64_t token = meta_data.sos_id;
+ 
+   int32_t batch_size = 1;
+ 
+   Ort::Value tokens = Ort::Value::CreateTensor(
+       memory_info, &token, 1, token_shape.data(), token_shape.size());
+ 
+   std::array<int64_t, 1> offset_shape{1};
+   Ort::Value offset = Ort::Value::CreateTensor<int64_t>(
+       model_->Allocator(), offset_shape.data(), offset_shape.size());
+   *(offset.GetTensorMutableData<int64_t>()) = 0;
+ 
+   std::vector<OfflineFireRedAsrDecoderResult> ans(1);
+ 
+   auto self_kv_cache = model_->GetInitialSelfKVCache();
+ 
+   std::tuple<Ort::Value, Ort::Value, Ort::Value, Ort::Value, Ort::Value,
+              Ort::Value>
+       decoder_out = {Ort::Value{nullptr},
+                      std::move(self_kv_cache.first),
+                      std::move(self_kv_cache.second),
+                      std::move(cross_k),
+                      std::move(cross_v),
+                      std::move(offset)};
+ 
+   for (int32_t i = 0; i < meta_data.max_len; ++i) {
+     decoder_out = model_->ForwardDecoder(View(&tokens),
+                                          std::move(std::get<1>(decoder_out)),
+                                          std::move(std::get<2>(decoder_out)),
+                                          std::move(std::get<3>(decoder_out)),
+                                          std::move(std::get<4>(decoder_out)),
+                                          std::move(std::get<5>(decoder_out)));
+ 
+     const auto &logits = std::get<0>(decoder_out);
+     const float *p_logits = logits.GetTensorData<float>();
+ 
+     auto logits_shape = logits.GetTensorTypeAndShapeInfo().GetShape();
+     int32_t vocab_size = logits_shape[2];
+ 
+     int32_t max_token_id = static_cast<int32_t>(std::distance(
+         p_logits, std::max_element(p_logits, p_logits + vocab_size)));
+     if (max_token_id == meta_data.eos_id) {
+       break;
+     }
+ 
+     ans[0].tokens.push_back(max_token_id);
+ 
+     token = max_token_id;
+ 
+     // increment offset
+     *(std::get<5>(decoder_out).GetTensorMutableData<int64_t>()) += 1;
+   }
+ 
+   return ans;
+ }
+ 
+ }  // namespace sherpa_onnx
--- a/sherpa-onnx/csrc/offline-fire-red-asr-greedy-search-decoder.h 0 → 100644
查看文件 @316424b
+++ b/sherpa-onnx/csrc/offline-fire-red-asr-greedy-search-decoder.h 0 → 100644
查看文件 @316424b
+ // sherpa-onnx/csrc/offline-fire-red-asr-greedy-search-decoder.h
+ //
+ // Copyright (c)  2025  Xiaomi Corporation
+ 
+ #ifndef SHERPA_ONNX_CSRC_OFFLINE_FIRE_RED_ASR_GREEDY_SEARCH_DECODER_H_
+ #define SHERPA_ONNX_CSRC_OFFLINE_FIRE_RED_ASR_GREEDY_SEARCH_DECODER_H_
+ 
+ #include <vector>
+ 
+ #include "sherpa-onnx/csrc/offline-fire-red-asr-decoder.h"
+ #include "sherpa-onnx/csrc/offline-fire-red-asr-model.h"
+ 
+ namespace sherpa_onnx {
+ 
+ class OfflineFireRedAsrGreedySearchDecoder : public OfflineFireRedAsrDecoder {
+  public:
+   explicit OfflineFireRedAsrGreedySearchDecoder(OfflineFireRedAsrModel *model)
+       : model_(model) {}
+ 
+   std::vector<OfflineFireRedAsrDecoderResult> Decode(
+       Ort::Value cross_k, Ort::Value cross_v) override;
+ 
+  private:
+   OfflineFireRedAsrModel *model_;  // not owned
+ };
+ 
+ }  // namespace sherpa_onnx
+ 
+ #endif  // SHERPA_ONNX_CSRC_OFFLINE_FIRE_RED_ASR_GREEDY_SEARCH_DECODER_H_
--- a/sherpa-onnx/csrc/offline-fire-red-asr-model-config.cc 0 → 100644
查看文件 @316424b
+++ b/sherpa-onnx/csrc/offline-fire-red-asr-model-config.cc 0 → 100644
查看文件 @316424b
+ // sherpa-onnx/csrc/offline-fire-red-asr-model-config.cc
+ //
+ // Copyright (c)  2023  Xiaomi Corporation
+ 
+ #include "sherpa-onnx/csrc/offline-fire-red-asr-model-config.h"
+ 
+ #include "sherpa-onnx/csrc/file-utils.h"
+ #include "sherpa-onnx/csrc/macros.h"
+ 
+ namespace sherpa_onnx {
+ 
+ void OfflineFireRedAsrModelConfig::Register(ParseOptions *po) {
+   po->Register("fire-red-asr-encoder", &encoder,
+                "Path to onnx encoder of FireRedAsr");
+ 
+   po->Register("fire-red-asr-decoder", &decoder,
+                "Path to onnx decoder of FireRedAsr");
+ }
+ 
+ bool OfflineFireRedAsrModelConfig::Validate() const {
+   if (encoder.empty()) {
+     SHERPA_ONNX_LOGE("Please provide --fire-red-asr-encoder");
+     return false;
+   }
+ 
+   if (!FileExists(encoder)) {
+     SHERPA_ONNX_LOGE("FireRedAsr encoder file '%s' does not exist",
+                      encoder.c_str());
+     return false;
+   }
+ 
+   if (decoder.empty()) {
+     SHERPA_ONNX_LOGE("Please provide --fire-red-asr-decoder");
+     return false;
+   }
+ 
+   if (!FileExists(decoder)) {
+     SHERPA_ONNX_LOGE("FireRedAsr decoder file '%s' does not exist",
+                      decoder.c_str());
+     return false;
+   }
+ 
+   return true;
+ }
+ 
+ std::string OfflineFireRedAsrModelConfig::ToString() const {
+   std::ostringstream os;
+ 
+   os << "OfflineFireRedAsrModelConfig(";
+   os << "encoder=\"" << encoder << "\", ";
+   os << "decoder=\"" << decoder << "\")";
+ 
+   return os.str();
+ }
+ 
+ }  // namespace sherpa_onnx
--- a/sherpa-onnx/csrc/offline-fire-red-asr-model-config.h 0 → 100644
查看文件 @316424b
+++ b/sherpa-onnx/csrc/offline-fire-red-asr-model-config.h 0 → 100644
查看文件 @316424b
+ // sherpa-onnx/csrc/offline-fire-red-asr-model-config.h
+ //
+ // Copyright (c)  2023  Xiaomi Corporation
+ #ifndef SHERPA_ONNX_CSRC_OFFLINE_FIRE_RED_ASR_MODEL_CONFIG_H_
+ #define SHERPA_ONNX_CSRC_OFFLINE_FIRE_RED_ASR_MODEL_CONFIG_H_
+ 
+ #include <string>
+ 
+ #include "sherpa-onnx/csrc/parse-options.h"
+ 
+ namespace sherpa_onnx {
+ 
+ // see https://github.com/FireRedTeam/FireRedASR
+ struct OfflineFireRedAsrModelConfig {
+   std::string encoder;
+   std::string decoder;
+ 
+   OfflineFireRedAsrModelConfig() = default;
+   OfflineFireRedAsrModelConfig(const std::string &encoder,
+                                const std::string &decoder)
+       : encoder(encoder), decoder(decoder) {}
+ 
+   void Register(ParseOptions *po);
+   bool Validate() const;
+ 
+   std::string ToString() const;
+ };
+ 
+ }  // namespace sherpa_onnx
+ 
+ #endif  // SHERPA_ONNX_CSRC_OFFLINE_FIRE_RED_ASR_MODEL_CONFIG_H_
--- a/sherpa-onnx/csrc/offline-fire-red-asr-model-meta-data.h 0 → 100644
查看文件 @316424b
+++ b/sherpa-onnx/csrc/offline-fire-red-asr-model-meta-data.h 0 → 100644
查看文件 @316424b
+ // sherpa-onnx/csrc/offline-fire-red-asr-model-meta-data.h
+ //
+ // Copyright (c)  2025  Xiaomi Corporation
+ #ifndef SHERPA_ONNX_CSRC_OFFLINE_FIRE_RED_ASR_MODEL_META_DATA_H_
+ #define SHERPA_ONNX_CSRC_OFFLINE_FIRE_RED_ASR_MODEL_META_DATA_H_
+ 
+ #include <string>
+ #include <unordered_map>
+ #include <vector>
+ 
+ namespace sherpa_onnx {
+ 
+ struct OfflineFireRedAsrModelMetaData {
+   int32_t sos_id;
+   int32_t eos_id;
+   int32_t max_len;
+ 
+   int32_t num_decoder_layers;
+   int32_t num_head;
+   int32_t head_dim;
+ 
+   std::vector<float> mean;
+   std::vector<float> inv_stddev;
+ };
+ 
+ }  // namespace sherpa_onnx
+ 
+ #endif  // SHERPA_ONNX_CSRC_OFFLINE_FIRE_RED_ASR_MODEL_META_DATA_H_
--- a/sherpa-onnx/csrc/offline-fire-red-asr-model.cc 0 → 100644
查看文件 @316424b
+++ b/sherpa-onnx/csrc/offline-fire-red-asr-model.cc 0 → 100644
查看文件 @316424b
+ // sherpa-onnx/csrc/offline-fire-red-asr-model.cc
+ //
+ // Copyright (c)  2025  Xiaomi Corporation
+ 
+ #include "sherpa-onnx/csrc/offline-fire-red-asr-model.h"
+ 
+ #include <algorithm>
+ #include <cmath>
+ #include <string>
+ #include <tuple>
+ #include <unordered_map>
+ #include <utility>
+ 
+ #if __ANDROID_API__ >= 9
+ #include "android/asset_manager.h"
+ #include "android/asset_manager_jni.h"
+ #endif
+ 
+ #if __OHOS__
+ #include "rawfile/raw_file_manager.h"
+ #endif
+ 
+ #include "sherpa-onnx/csrc/macros.h"
+ #include "sherpa-onnx/csrc/onnx-utils.h"
+ #include "sherpa-onnx/csrc/session.h"
+ #include "sherpa-onnx/csrc/text-utils.h"
+ 
+ namespace sherpa_onnx {
+ 
+ class OfflineFireRedAsrModel::Impl {
+  public:
+   explicit Impl(const OfflineModelConfig &config)
+       : config_(config),
+         env_(ORT_LOGGING_LEVEL_ERROR),
+         sess_opts_(GetSessionOptions(config)),
+         allocator_{} {
+     {
+       auto buf = ReadFile(config.fire_red_asr.encoder);
+       InitEncoder(buf.data(), buf.size());
+     }
+ 
+     {
+       auto buf = ReadFile(config.fire_red_asr.decoder);
+       InitDecoder(buf.data(), buf.size());
+     }
+   }
+ 
+   template <typename Manager>
+   Impl(Manager *mgr, const OfflineModelConfig &config)
+       : config_(config),
+         env_(ORT_LOGGING_LEVEL_ERROR),
+         sess_opts_(GetSessionOptions(config)),
+         allocator_{} {
+     {
+       auto buf = ReadFile(mgr, config.fire_red_asr.encoder);
+       InitEncoder(buf.data(), buf.size());
+     }
+ 
+     {
+       auto buf = ReadFile(mgr, config.fire_red_asr.decoder);
+       InitDecoder(buf.data(), buf.size());
+     }
+   }
+ 
+   std::pair<Ort::Value, Ort::Value> ForwardEncoder(Ort::Value features,
+                                                    Ort::Value features_length) {
+     std::array<Ort::Value, 2> inputs{std::move(features),
+                                      std::move(features_length)};
+ 
+     auto encoder_out = encoder_sess_->Run(
+         {}, encoder_input_names_ptr_.data(), inputs.data(), inputs.size(),
+         encoder_output_names_ptr_.data(), encoder_output_names_ptr_.size());
+ 
+     return {std::move(encoder_out[0]), std::move(encoder_out[1])};
+   }
+ 
+   std::tuple<Ort::Value, Ort::Value, Ort::Value, Ort::Value, Ort::Value,
+              Ort::Value>
+   ForwardDecoder(Ort::Value tokens, Ort::Value n_layer_self_k_cache,
+                  Ort::Value n_layer_self_v_cache, Ort::Value n_layer_cross_k,
+                  Ort::Value n_layer_cross_v, Ort::Value offset) {
+     std::array<Ort::Value, 6> decoder_input = {std::move(tokens),
+                                                std::move(n_layer_self_k_cache),
+                                                std::move(n_layer_self_v_cache),
+                                                std::move(n_layer_cross_k),
+                                                std::move(n_layer_cross_v),
+                                                std::move(offset)};
+ 
+     auto decoder_out = decoder_sess_->Run(
+         {}, decoder_input_names_ptr_.data(), decoder_input.data(),
+         decoder_input.size(), decoder_output_names_ptr_.data(),
+         decoder_output_names_ptr_.size());
+ 
+     return std::tuple<Ort::Value, Ort::Value, Ort::Value, Ort::Value,
+                       Ort::Value, Ort::Value>{
+         std::move(decoder_out[0]),   std::move(decoder_out[1]),
+         std::move(decoder_out[2]),   std::move(decoder_input[3]),
+         std::move(decoder_input[4]), std::move(decoder_input[5])};
+   }
+ 
+   std::pair<Ort::Value, Ort::Value> GetInitialSelfKVCache() {
+     int32_t batch_size = 1;
+     std::array<int64_t, 5> shape{meta_data_.num_decoder_layers, batch_size,
+                                  meta_data_.max_len, meta_data_.num_head,
+                                  meta_data_.head_dim};
+ 
+     Ort::Value n_layer_self_k_cache = Ort::Value::CreateTensor<float>(
+         Allocator(), shape.data(), shape.size());
+ 
+     Ort::Value n_layer_self_v_cache = Ort::Value::CreateTensor<float>(
+         Allocator(), shape.data(), shape.size());
+ 
+     auto n = shape[0] * shape[1] * shape[2] * shape[3] * shape[4];
+ 
+     float *p_k = n_layer_self_k_cache.GetTensorMutableData<float>();
+     float *p_v = n_layer_self_v_cache.GetTensorMutableData<float>();
+ 
+     memset(p_k, 0, sizeof(float) * n);
+     memset(p_v, 0, sizeof(float) * n);
+ 
+     return {std::move(n_layer_self_k_cache), std::move(n_layer_self_v_cache)};
+   }
+ 
+   OrtAllocator *Allocator() { return allocator_; }
+ 
+   const OfflineFireRedAsrModelMetaData &GetModelMetadata() const {
+     return meta_data_;
+   }
+ 
+  private:
+   void InitEncoder(void *model_data, size_t model_data_length) {
+     encoder_sess_ = std::make_unique<Ort::Session>(
+         env_, model_data, model_data_length, sess_opts_);
+ 
+     GetInputNames(encoder_sess_.get(), &encoder_input_names_,
+                   &encoder_input_names_ptr_);
+ 
+     GetOutputNames(encoder_sess_.get(), &encoder_output_names_,
+                    &encoder_output_names_ptr_);
+ 
+     // get meta data
+     Ort::ModelMetadata meta_data = encoder_sess_->GetModelMetadata();
+     if (config_.debug) {
+       std::ostringstream os;
+       os << "---encoder---\n";
+       PrintModelMetadata(os, meta_data);
+ #if __OHOS__
+       SHERPA_ONNX_LOGE("%{public}s\n", os.str().c_str());
+ #else
+       SHERPA_ONNX_LOGE("%s\n", os.str().c_str());
+ #endif
+     }
+ 
+     Ort::AllocatorWithDefaultOptions allocator;  // used in the macro below
+     SHERPA_ONNX_READ_META_DATA(meta_data_.num_decoder_layers,
+                                "num_decoder_layers");
+     SHERPA_ONNX_READ_META_DATA(meta_data_.num_head, "num_head");
+     SHERPA_ONNX_READ_META_DATA(meta_data_.head_dim, "head_dim");
+     SHERPA_ONNX_READ_META_DATA(meta_data_.sos_id, "sos");
+     SHERPA_ONNX_READ_META_DATA(meta_data_.eos_id, "eos");
+     SHERPA_ONNX_READ_META_DATA(meta_data_.max_len, "max_len");
+ 
+     SHERPA_ONNX_READ_META_DATA_VEC_FLOAT(meta_data_.mean, "cmvn_mean");
+     SHERPA_ONNX_READ_META_DATA_VEC_FLOAT(meta_data_.inv_stddev,
+                                          "cmvn_inv_stddev");
+   }
+ 
+   void InitDecoder(void *model_data, size_t model_data_length) {
+     decoder_sess_ = std::make_unique<Ort::Session>(
+         env_, model_data, model_data_length, sess_opts_);
+ 
+     GetInputNames(decoder_sess_.get(), &decoder_input_names_,
+                   &decoder_input_names_ptr_);
+ 
+     GetOutputNames(decoder_sess_.get(), &decoder_output_names_,
+                    &decoder_output_names_ptr_);
+   }
+ 
+  private:
+   OfflineModelConfig config_;
+   Ort::Env env_;
+   Ort::SessionOptions sess_opts_;
+   Ort::AllocatorWithDefaultOptions allocator_;
+ 
+   std::unique_ptr<Ort::Session> encoder_sess_;
+   std::unique_ptr<Ort::Session> decoder_sess_;
+ 
+   std::vector<std::string> encoder_input_names_;
+   std::vector<const char *> encoder_input_names_ptr_;
+ 
+   std::vector<std::string> encoder_output_names_;
+   std::vector<const char *> encoder_output_names_ptr_;
+ 
+   std::vector<std::string> decoder_input_names_;
+   std::vector<const char *> decoder_input_names_ptr_;
+ 
+   std::vector<std::string> decoder_output_names_;
+   std::vector<const char *> decoder_output_names_ptr_;
+ 
+   OfflineFireRedAsrModelMetaData meta_data_;
+ };
+ 
+ OfflineFireRedAsrModel::OfflineFireRedAsrModel(const OfflineModelConfig &config)
+     : impl_(std::make_unique<Impl>(config)) {}
+ 
+ template <typename Manager>
+ OfflineFireRedAsrModel::OfflineFireRedAsrModel(Manager *mgr,
+                                                const OfflineModelConfig &config)
+     : impl_(std::make_unique<Impl>(mgr, config)) {}
+ 
+ OfflineFireRedAsrModel::~OfflineFireRedAsrModel() = default;
+ 
+ std::pair<Ort::Value, Ort::Value> OfflineFireRedAsrModel::ForwardEncoder(
+     Ort::Value features, Ort::Value features_length) const {
+   return impl_->ForwardEncoder(std::move(features), std::move(features_length));
+ }
+ 
+ std::tuple<Ort::Value, Ort::Value, Ort::Value, Ort::Value, Ort::Value,
+            Ort::Value>
+ OfflineFireRedAsrModel::ForwardDecoder(Ort::Value tokens,
+                                        Ort::Value n_layer_self_k_cache,
+                                        Ort::Value n_layer_self_v_cache,
+                                        Ort::Value n_layer_cross_k,
+                                        Ort::Value n_layer_cross_v,
+                                        Ort::Value offset) const {
+   return impl_->ForwardDecoder(
+       std::move(tokens), std::move(n_layer_self_k_cache),
+       std::move(n_layer_self_v_cache), std::move(n_layer_cross_k),
+       std::move(n_layer_cross_v), std::move(offset));
+ }
+ 
+ std::pair<Ort::Value, Ort::Value>
+ OfflineFireRedAsrModel::GetInitialSelfKVCache() const {
+   return impl_->GetInitialSelfKVCache();
+ }
+ 
+ OrtAllocator *OfflineFireRedAsrModel::Allocator() const {
+   return impl_->Allocator();
+ }
+ 
+ const OfflineFireRedAsrModelMetaData &OfflineFireRedAsrModel::GetModelMetadata()
+     const {
+   return impl_->GetModelMetadata();
+ }
+ 
+ #if __ANDROID_API__ >= 9
+ template OfflineFireRedAsrModel::OfflineFireRedAsrModel(
+     AAssetManager *mgr, const OfflineModelConfig &config);
+ #endif
+ 
+ #if __OHOS__
+ template OfflineFireRedAsrModel::OfflineFireRedAsrModel(
+     NativeResourceManager *mgr, const OfflineModelConfig &config);
+ #endif
+ 
+ }  // namespace sherpa_onnx
--- a/sherpa-onnx/csrc/offline-fire-red-asr-model.h 0 → 100644
查看文件 @316424b
+++ b/sherpa-onnx/csrc/offline-fire-red-asr-model.h 0 → 100644
查看文件 @316424b
+ // sherpa-onnx/csrc/offline-fire-red-asr-model.h
+ //
+ // Copyright (c)  2025  Xiaomi Corporation
+ #ifndef SHERPA_ONNX_CSRC_OFFLINE_FIRE_RED_ASR_MODEL_H_
+ #define SHERPA_ONNX_CSRC_OFFLINE_FIRE_RED_ASR_MODEL_H_
+ 
+ #include <memory>
+ #include <string>
+ #include <tuple>
+ #include <unordered_map>
+ #include <utility>
+ #include <vector>
+ 
+ #include "onnxruntime_cxx_api.h"  // NOLINT
+ #include "sherpa-onnx/csrc/offline-fire-red-asr-model-meta-data.h"
+ #include "sherpa-onnx/csrc/offline-model-config.h"
+ 
+ namespace sherpa_onnx {
+ 
+ class OfflineFireRedAsrModel {
+  public:
+   explicit OfflineFireRedAsrModel(const OfflineModelConfig &config);
+ 
+   template <typename Manager>
+   OfflineFireRedAsrModel(Manager *mgr, const OfflineModelConfig &config);
+ 
+   ~OfflineFireRedAsrModel();
+ 
+   /** Run the encoder model.
+    *
+    * @param features  A tensor of shape (N, T, C).
+    * @param features_len  A tensor of shape (N,) with dtype int64.
+    *
+    * @return Return a pair containing:
+    *  - n_layer_cross_k: A 4-D tensor of shape
+    *                     (num_decoder_layers, N, T, d_model)
+    *  - n_layer_cross_v: A 4-D tensor of shape
+    *                     (num_decoder_layers, N, T, d_model)
+    */
+   std::pair<Ort::Value, Ort::Value> ForwardEncoder(
+       Ort::Value features, Ort::Value features_length) const;
+ 
+   /** Run the decoder model.
+    *
+    * @param tokens A int64 tensor of shape (N, num_words)
+    * @param n_layer_self_k_cache  A 5-D tensor of shape
+    *                       (num_decoder_layers, N, max_len, num_head, head_dim).
+    * @param n_layer_self_v_cache  A 5-D tensor of shape
+    *                       (num_decoder_layers, N, max_len, num_head, head_dim).
+    * @param n_layer_cross_k       A 5-D tensor of shape
+    *                              (num_decoder_layers, N, T, d_model).
+    * @param n_layer_cross_v       A 5-D tensor of shape
+    *                              (num_decoder_layers, N, T, d_model).
+    * @param offset A int64 tensor of shape (N,)
+    *
+    * @return Return a tuple containing 6 tensors:
+    *
+    *  - logits A 3-D tensor of shape (N, num_words, vocab_size)
+    *  - out_n_layer_self_k_cache Same shape as n_layer_self_k_cache
+    *  - out_n_layer_self_v_cache Same shape as n_layer_self_v_cache
+    *  - out_n_layer_cross_k Same as n_layer_cross_k
+    *  - out_n_layer_cross_v Same as n_layer_cross_v
+    *  - out_offset Same as offset
+    */
+   std::tuple<Ort::Value, Ort::Value, Ort::Value, Ort::Value, Ort::Value,
+              Ort::Value>
+   ForwardDecoder(Ort::Value tokens, Ort::Value n_layer_self_k_cache,
+                  Ort::Value n_layer_self_v_cache, Ort::Value n_layer_cross_k,
+                  Ort::Value n_layer_cross_v, Ort::Value offset) const;
+ 
+   /** Return the initial self kv cache in a pair
+    *  - n_layer_self_k_cache A 5-D tensor of shape
+    *                       (num_decoder_layers, N, max_len, num_head, head_dim).
+    *  - n_layer_self_v_cache A 5-D tensor of shape
+    *                       (num_decoder_layers, N, max_len, num_head, head_dim).
+    */
+   std::pair<Ort::Value, Ort::Value> GetInitialSelfKVCache() const;
+ 
+   const OfflineFireRedAsrModelMetaData &GetModelMetadata() const;
+ 
+   /** Return an allocator for allocating memory
+    */
+   OrtAllocator *Allocator() const;
+ 
+  private:
+   class Impl;
+   std::unique_ptr<Impl> impl_;
+ };
+ 
+ }  // namespace sherpa_onnx
+ 
+ #endif  // SHERPA_ONNX_CSRC_OFFLINE_FIRE_RED_ASR_MODEL_H_
--- a/sherpa-onnx/csrc/offline-model-config.cc
查看文件 @316424b
+++ b/sherpa-onnx/csrc/offline-model-config.cc
查看文件 @316424b
@@ -15,6 +15,7 @@ void OfflineModelConfig::Register(ParseOptions *po) {
   paraformer.Register(po);
   nemo_ctc.Register(po);
   whisper.Register(po);
+   fire_red_asr.Register(po);
   tdnn.Register(po);
   zipformer_ctc.Register(po);
   wenet_ctc.Register(po);
@@ -38,7 +39,7 @@ void OfflineModelConfig::Register(ParseOptions *po) {
   po->Register("model-type", &model_type,
                "Specify it to reduce model initialization time. "
                "Valid values are: transducer, paraformer, nemo_ctc, whisper, "
-                "tdnn, zipformer2_ctc, telespeech_ctc."
+                "tdnn, zipformer2_ctc, telespeech_ctc, fire_red_asr."
                "All other values lead to loading the model twice.");
   po->Register("modeling-unit", &modeling_unit,
                "The modeling unit of the model, commonly used units are bpe, "
@@ -84,6 +85,10 @@ bool OfflineModelConfig::Validate() const {
     return whisper.Validate();
   }
 
+   if (!fire_red_asr.encoder.empty()) {
+     return fire_red_asr.Validate();
+   }
+ 
   if (!tdnn.model.empty()) {
     return tdnn.Validate();
   }
@@ -125,6 +130,7 @@ std::string OfflineModelConfig::ToString() const {
   os << "paraformer=" << paraformer.ToString() << ", ";
   os << "nemo_ctc=" << nemo_ctc.ToString() << ", ";
   os << "whisper=" << whisper.ToString() << ", ";
+   os << "fire_red_asr=" << fire_red_asr.ToString() << ", ";
   os << "tdnn=" << tdnn.ToString() << ", ";
   os << "zipformer_ctc=" << zipformer_ctc.ToString() << ", ";
   os << "wenet_ctc=" << wenet_ctc.ToString() << ", ";
--- a/sherpa-onnx/csrc/offline-model-config.h
查看文件 @316424b
+++ b/sherpa-onnx/csrc/offline-model-config.h
查看文件 @316424b
@@ -6,6 +6,7 @@
 
 #include <string>
 
+ #include "sherpa-onnx/csrc/offline-fire-red-asr-model-config.h"
 #include "sherpa-onnx/csrc/offline-moonshine-model-config.h"
 #include "sherpa-onnx/csrc/offline-nemo-enc-dec-ctc-model-config.h"
 #include "sherpa-onnx/csrc/offline-paraformer-model-config.h"
@@ -23,6 +24,7 @@ struct OfflineModelConfig {
   OfflineParaformerModelConfig paraformer;
   OfflineNemoEncDecCtcModelConfig nemo_ctc;
   OfflineWhisperModelConfig whisper;
+   OfflineFireRedAsrModelConfig fire_red_asr;
   OfflineTdnnModelConfig tdnn;
   OfflineZipformerCtcModelConfig zipformer_ctc;
   OfflineWenetCtcModelConfig wenet_ctc;
@@ -54,6 +56,7 @@ struct OfflineModelConfig {
                      const OfflineParaformerModelConfig &paraformer,
                      const OfflineNemoEncDecCtcModelConfig &nemo_ctc,
                      const OfflineWhisperModelConfig &whisper,
+                      const OfflineFireRedAsrModelConfig &fire_red_asr,
                      const OfflineTdnnModelConfig &tdnn,
                      const OfflineZipformerCtcModelConfig &zipformer_ctc,
                      const OfflineWenetCtcModelConfig &wenet_ctc,
@@ -68,6 +71,7 @@ struct OfflineModelConfig {
         paraformer(paraformer),
         nemo_ctc(nemo_ctc),
         whisper(whisper),
+         fire_red_asr(fire_red_asr),
         tdnn(tdnn),
         zipformer_ctc(zipformer_ctc),
         wenet_ctc(wenet_ctc),
--- a/sherpa-onnx/csrc/offline-recognizer-fire-red-asr-impl.h 0 → 100644
查看文件 @316424b
+++ b/sherpa-onnx/csrc/offline-recognizer-fire-red-asr-impl.h 0 → 100644
查看文件 @316424b
+ // sherpa-onnx/csrc/offline-recognizer-fire-red-asr-impl.h
+ //
+ // Copyright (c)  2022-2023  Xiaomi Corporation
+ 
+ #ifndef SHERPA_ONNX_CSRC_OFFLINE_RECOGNIZER_FIRE_RED_ASR_IMPL_H_
+ #define SHERPA_ONNX_CSRC_OFFLINE_RECOGNIZER_FIRE_RED_ASR_IMPL_H_
+ 
+ #include <algorithm>
+ #include <cmath>
+ #include <memory>
+ #include <string>
+ #include <utility>
+ #include <vector>
+ 
+ #include "sherpa-onnx/csrc/offline-fire-red-asr-decoder.h"
+ #include "sherpa-onnx/csrc/offline-fire-red-asr-greedy-search-decoder.h"
+ #include "sherpa-onnx/csrc/offline-fire-red-asr-model.h"
+ #include "sherpa-onnx/csrc/offline-model-config.h"
+ #include "sherpa-onnx/csrc/offline-recognizer-impl.h"
+ #include "sherpa-onnx/csrc/offline-recognizer.h"
+ #include "sherpa-onnx/csrc/symbol-table.h"
+ #include "sherpa-onnx/csrc/transpose.h"
+ 
+ namespace sherpa_onnx {
+ 
+ static OfflineRecognitionResult Convert(
+     const OfflineFireRedAsrDecoderResult &src, const SymbolTable &sym_table) {
+   OfflineRecognitionResult r;
+   r.tokens.reserve(src.tokens.size());
+ 
+   std::string text;
+   for (auto i : src.tokens) {
+     if (!sym_table.Contains(i)) {
+       continue;
+     }
+ 
+     const auto &s = sym_table[i];
+     text += s;
+     r.tokens.push_back(s);
+   }
+ 
+   r.text = text;
+ 
+   return r;
+ }
+ 
+ class OfflineRecognizerFireRedAsrImpl : public OfflineRecognizerImpl {
+  public:
+   explicit OfflineRecognizerFireRedAsrImpl(
+       const OfflineRecognizerConfig &config)
+       : OfflineRecognizerImpl(config),
+         config_(config),
+         symbol_table_(config_.model_config.tokens),
+         model_(std::make_unique<OfflineFireRedAsrModel>(config.model_config)) {
+     Init();
+   }
+ 
+   template <typename Manager>
+   OfflineRecognizerFireRedAsrImpl(Manager *mgr,
+                                   const OfflineRecognizerConfig &config)
+       : OfflineRecognizerImpl(mgr, config),
+         config_(config),
+         symbol_table_(mgr, config_.model_config.tokens),
+         model_(std::make_unique<OfflineFireRedAsrModel>(mgr,
+                                                         config.model_config)) {
+     Init();
+   }
+ 
+   void Init() {
+     if (config_.decoding_method == "greedy_search") {
+       decoder_ =
+           std::make_unique<OfflineFireRedAsrGreedySearchDecoder>(model_.get());
+     } else {
+       SHERPA_ONNX_LOGE(
+           "Only greedy_search is supported at present for FireRedAsr. Given %s",
+           config_.decoding_method.c_str());
+       SHERPA_ONNX_EXIT(-1);
+     }
+ 
+     const auto &meta_data = model_->GetModelMetadata();
+ 
+     config_.feat_config.normalize_samples = false;
+     config_.feat_config.high_freq = 0;
+     config_.feat_config.snip_edges = true;
+   }
+ 
+   std::unique_ptr<OfflineStream> CreateStream() const override {
+     return std::make_unique<OfflineStream>(config_.feat_config);
+   }
+ 
+   void DecodeStreams(OfflineStream **ss, int32_t n) const override {
+     // batch decoding is not implemented yet
+     for (int32_t i = 0; i != n; ++i) {
+       DecodeStream(ss[i]);
+     }
+   }
+ 
+   OfflineRecognizerConfig GetConfig() const override { return config_; }
+ 
+  private:
+   void DecodeStream(OfflineStream *s) const {
+     auto memory_info =
+         Ort::MemoryInfo::CreateCpu(OrtDeviceAllocator, OrtMemTypeDefault);
+ 
+     int32_t feat_dim = s->FeatureDim();
+     std::vector<float> f = s->GetFrames();
+     ApplyCMVN(&f);
+ 
+     int64_t num_frames = f.size() / feat_dim;
+ 
+     std::array<int64_t, 3> shape{1, num_frames, feat_dim};
+ 
+     Ort::Value x = Ort::Value::CreateTensor(memory_info, f.data(), f.size(),
+                                             shape.data(), shape.size());
+ 
+     int64_t len_shape = 1;
+     Ort::Value x_len =
+         Ort::Value::CreateTensor(memory_info, &num_frames, 1, &len_shape, 1);
+ 
+     auto cross_kv = model_->ForwardEncoder(std::move(x), std::move(x_len));
+ 
+     auto results =
+         decoder_->Decode(std::move(cross_kv.first), std::move(cross_kv.second));
+ 
+     auto r = Convert(results[0], symbol_table_);
+ 
+     r.text = ApplyInverseTextNormalization(std::move(r.text));
+     s->SetResult(r);
+   }
+ 
+   void ApplyCMVN(std::vector<float> *v) const {
+     const auto &meta_data = model_->GetModelMetadata();
+     const auto &mean = meta_data.mean;
+     const auto &inv_stddev = meta_data.inv_stddev;
+     int32_t feat_dim = static_cast<int32_t>(mean.size());
+     int32_t num_frames = static_cast<int32_t>(v->size()) / feat_dim;
+ 
+     float *p = v->data();
+ 
+     for (int32_t i = 0; i != num_frames; ++i) {
+       for (int32_t k = 0; k != feat_dim; ++k) {
+         p[k] = (p[k] - mean[k]) * inv_stddev[k];
+       }
+ 
+       p += feat_dim;
+     }
+   }
+ 
+  private:
+   OfflineRecognizerConfig config_;
+   SymbolTable symbol_table_;
+   std::unique_ptr<OfflineFireRedAsrModel> model_;
+   std::unique_ptr<OfflineFireRedAsrDecoder> decoder_;
+ };
+ 
+ }  // namespace sherpa_onnx
+ 
+ #endif  // SHERPA_ONNX_CSRC_OFFLINE_RECOGNIZER_FIRE_RED_ASR_IMPL_H_
--- a/sherpa-onnx/csrc/offline-recognizer-impl.cc
查看文件 @316424b
+++ b/sherpa-onnx/csrc/offline-recognizer-impl.cc
查看文件 @316424b
@@ -24,6 +24,7 @@
 #include "onnxruntime_cxx_api.h"  // NOLINT
 #include "sherpa-onnx/csrc/macros.h"
 #include "sherpa-onnx/csrc/offline-recognizer-ctc-impl.h"
+ #include "sherpa-onnx/csrc/offline-recognizer-fire-red-asr-impl.h"
 #include "sherpa-onnx/csrc/offline-recognizer-moonshine-impl.h"
 #include "sherpa-onnx/csrc/offline-recognizer-paraformer-impl.h"
 #include "sherpa-onnx/csrc/offline-recognizer-sense-voice-impl.h"
@@ -56,6 +57,10 @@ std::unique_ptr<OfflineRecognizerImpl> OfflineRecognizerImpl::Create(
     return std::make_unique<OfflineRecognizerWhisperImpl>(config);
   }
 
+   if (!config.model_config.fire_red_asr.encoder.empty()) {
+     return std::make_unique<OfflineRecognizerFireRedAsrImpl>(config);
+   }
+ 
   if (!config.model_config.moonshine.preprocessor.empty()) {
     return std::make_unique<OfflineRecognizerMoonshineImpl>(config);
   }
@@ -237,6 +242,10 @@ std::unique_ptr<OfflineRecognizerImpl> OfflineRecognizerImpl::Create(
     return std::make_unique<OfflineRecognizerWhisperImpl>(mgr, config);
   }
 
+   if (!config.model_config.fire_red_asr.encoder.empty()) {
+     return std::make_unique<OfflineRecognizerFireRedAsrImpl>(mgr, config);
+   }
+ 
   if (!config.model_config.moonshine.preprocessor.empty()) {
     return std::make_unique<OfflineRecognizerMoonshineImpl>(mgr, config);
   }
--- a/sherpa-onnx/python/csrc/CMakeLists.txt
查看文件 @316424b
+++ b/sherpa-onnx/python/csrc/CMakeLists.txt
查看文件 @316424b
@@ -9,6 +9,7 @@ set(srcs
   features.cc
   keyword-spotter.cc
   offline-ctc-fst-decoder-config.cc
+   offline-fire-red-asr-model-config.cc
   offline-lm-config.cc
   offline-model-config.cc
   offline-moonshine-model-config.cc
--- a/sherpa-onnx/python/csrc/offline-fire-red-asr-model-config.cc 0 → 100644
查看文件 @316424b
+++ b/sherpa-onnx/python/csrc/offline-fire-red-asr-model-config.cc 0 → 100644
查看文件 @316424b
+ // sherpa-onnx/python/csrc/offline-fire-red-asr-model-config.cc
+ //
+ // Copyright (c)  2025  Xiaomi Corporation
+ 
+ #include "sherpa-onnx/csrc/offline-fire-red-asr-model-config.h"
+ 
+ #include <string>
+ #include <vector>
+ 
+ #include "sherpa-onnx/python/csrc/offline-fire-red-asr-model-config.h"
+ 
+ namespace sherpa_onnx {
+ 
+ void PybindOfflineFireRedAsrModelConfig(py::module *m) {
+   using PyClass = OfflineFireRedAsrModelConfig;
+   py::class_<PyClass>(*m, "OfflineFireRedAsrModelConfig")
+       .def(py::init<const std::string &, const std::string &>(),
+            py::arg("encoder"), py::arg("decoder"))
+       .def_readwrite("encoder", &PyClass::encoder)
+       .def_readwrite("decoder", &PyClass::decoder)
+       .def("__str__", &PyClass::ToString);
+ }
+ 
+ }  // namespace sherpa_onnx
--- a/sherpa-onnx/python/csrc/offline-fire-red-asr-model-config.h 0 → 100644
查看文件 @316424b
+++ b/sherpa-onnx/python/csrc/offline-fire-red-asr-model-config.h 0 → 100644
查看文件 @316424b
+ // sherpa-onnx/python/csrc/offline-fire-red-asr-model-config.h
+ //
+ // Copyright (c)  2025  Xiaomi Corporation
+ 
+ #ifndef SHERPA_ONNX_PYTHON_CSRC_OFFLINE_FIRE_RED_ASR_MODEL_CONFIG_H_
+ #define SHERPA_ONNX_PYTHON_CSRC_OFFLINE_FIRE_RED_ASR_MODEL_CONFIG_H_
+ 
+ #include "sherpa-onnx/python/csrc/sherpa-onnx.h"
+ 
+ namespace sherpa_onnx {
+ 
+ void PybindOfflineFireRedAsrModelConfig(py::module *m);
+ 
+ }
+ 
+ #endif  // SHERPA_ONNX_PYTHON_CSRC_OFFLINE_FIRE_RED_ASR_MODEL_CONFIG_H_
--- a/sherpa-onnx/python/csrc/offline-model-config.cc
查看文件 @316424b
+++ b/sherpa-onnx/python/csrc/offline-model-config.cc
查看文件 @316424b
@@ -8,6 +8,7 @@
 #include <vector>
 
 #include "sherpa-onnx/csrc/offline-model-config.h"
+ #include "sherpa-onnx/python/csrc/offline-fire-red-asr-model-config.h"
 #include "sherpa-onnx/python/csrc/offline-moonshine-model-config.h"
 #include "sherpa-onnx/python/csrc/offline-nemo-enc-dec-ctc-model-config.h"
 #include "sherpa-onnx/python/csrc/offline-paraformer-model-config.h"
@@ -25,6 +26,7 @@ void PybindOfflineModelConfig(py::module *m) {
   PybindOfflineParaformerModelConfig(m);
   PybindOfflineNemoEncDecCtcModelConfig(m);
   PybindOfflineWhisperModelConfig(m);
+   PybindOfflineFireRedAsrModelConfig(m);
   PybindOfflineTdnnModelConfig(m);
   PybindOfflineZipformerCtcModelConfig(m);
   PybindOfflineWenetCtcModelConfig(m);
@@ -33,35 +35,38 @@ void PybindOfflineModelConfig(py::module *m) {
 
   using PyClass = OfflineModelConfig;
   py::class_<PyClass>(*m, "OfflineModelConfig")
-       .def(
-           py::init<
-               const OfflineTransducerModelConfig &,
-               const OfflineParaformerModelConfig &,
-               const OfflineNemoEncDecCtcModelConfig &,
-               const OfflineWhisperModelConfig &, const OfflineTdnnModelConfig &,
-               const OfflineZipformerCtcModelConfig &,
-               const OfflineWenetCtcModelConfig &,
-               const OfflineSenseVoiceModelConfig &,
-               const OfflineMoonshineModelConfig &, const std::string &,
-               const std::string &, int32_t, bool, const std::string &,
-               const std::string &, const std::string &, const std::string &>(),
-           py::arg("transducer") = OfflineTransducerModelConfig(),
-           py::arg("paraformer") = OfflineParaformerModelConfig(),
-           py::arg("nemo_ctc") = OfflineNemoEncDecCtcModelConfig(),
-           py::arg("whisper") = OfflineWhisperModelConfig(),
-           py::arg("tdnn") = OfflineTdnnModelConfig(),
-           py::arg("zipformer_ctc") = OfflineZipformerCtcModelConfig(),
-           py::arg("wenet_ctc") = OfflineWenetCtcModelConfig(),
-           py::arg("sense_voice") = OfflineSenseVoiceModelConfig(),
-           py::arg("moonshine") = OfflineMoonshineModelConfig(),
-           py::arg("telespeech_ctc") = "", py::arg("tokens"),
-           py::arg("num_threads"), py::arg("debug") = false,
-           py::arg("provider") = "cpu", py::arg("model_type") = "",
-           py::arg("modeling_unit") = "cjkchar", py::arg("bpe_vocab") = "")
+       .def(py::init<const OfflineTransducerModelConfig &,
+                     const OfflineParaformerModelConfig &,
+                     const OfflineNemoEncDecCtcModelConfig &,
+                     const OfflineWhisperModelConfig &,
+                     const OfflineFireRedAsrModelConfig &,
+                     const OfflineTdnnModelConfig &,
+                     const OfflineZipformerCtcModelConfig &,
+                     const OfflineWenetCtcModelConfig &,
+                     const OfflineSenseVoiceModelConfig &,
+                     const OfflineMoonshineModelConfig &, const std::string &,
+                     const std::string &, int32_t, bool, const std::string &,
+                     const std::string &, const std::string &,
+                     const std::string &>(),
+            py::arg("transducer") = OfflineTransducerModelConfig(),
+            py::arg("paraformer") = OfflineParaformerModelConfig(),
+            py::arg("nemo_ctc") = OfflineNemoEncDecCtcModelConfig(),
+            py::arg("whisper") = OfflineWhisperModelConfig(),
+            py::arg("fire_red_asr") = OfflineFireRedAsrModelConfig(),
+            py::arg("tdnn") = OfflineTdnnModelConfig(),
+            py::arg("zipformer_ctc") = OfflineZipformerCtcModelConfig(),
+            py::arg("wenet_ctc") = OfflineWenetCtcModelConfig(),
+            py::arg("sense_voice") = OfflineSenseVoiceModelConfig(),
+            py::arg("moonshine") = OfflineMoonshineModelConfig(),
+            py::arg("telespeech_ctc") = "", py::arg("tokens"),
+            py::arg("num_threads"), py::arg("debug") = false,
+            py::arg("provider") = "cpu", py::arg("model_type") = "",
+            py::arg("modeling_unit") = "cjkchar", py::arg("bpe_vocab") = "")
       .def_readwrite("transducer", &PyClass::transducer)
       .def_readwrite("paraformer", &PyClass::paraformer)
       .def_readwrite("nemo_ctc", &PyClass::nemo_ctc)
       .def_readwrite("whisper", &PyClass::whisper)
+       .def_readwrite("fire_red_asr", &PyClass::fire_red_asr)
       .def_readwrite("tdnn", &PyClass::tdnn)
       .def_readwrite("zipformer_ctc", &PyClass::zipformer_ctc)
       .def_readwrite("wenet_ctc", &PyClass::wenet_ctc)
--- a/sherpa-onnx/python/sherpa_onnx/offline_recognizer.py
查看文件 @316424b
+++ b/sherpa-onnx/python/sherpa_onnx/offline_recognizer.py
查看文件 @316424b
@@ -6,6 +6,7 @@ from typing import List, Optional
 from _sherpa_onnx import (
     FeatureExtractorConfig,
     OfflineCtcFstDecoderConfig,
+     OfflineFireRedAsrModelConfig,
     OfflineLMConfig,
     OfflineModelConfig,
     OfflineMoonshineModelConfig,
@@ -572,6 +573,78 @@ class OfflineRecognizer(object):
         return self
 
     @classmethod
+     def from_fire_red_asr(
+         cls,
+         encoder: str,
+         decoder: str,
+         tokens: str,
+         num_threads: int = 1,
+         decoding_method: str = "greedy_search",
+         debug: bool = False,
+         provider: str = "cpu",
+         rule_fsts: str = "",
+         rule_fars: str = "",
+     ):
+         """
+         Please refer to
+         `<https://k2-fsa.github.io/sherpa/onnx/fire_red_asr/index.html>`_
+         to download pre-trained models for different kinds of FireRedAsr models,
+         e.g., xs, large, etc.
+ 
+         Args:
+           encoder:
+             Path to the encoder model.
+           decoder:
+             Path to the decoder model.
+           tokens:
+             Path to ``tokens.txt``. Each line in ``tokens.txt`` contains two
+             columns::
+ 
+                 symbol integer_id
+           num_threads:
+             Number of threads for neural network computation.
+           decoding_method:
+             Valid values: greedy_search.
+           debug:
+             True to show debug messages.
+           provider:
+             onnxruntime execution providers. Valid values are: cpu, cuda, coreml.
+           rule_fsts:
+             If not empty, it specifies fsts for inverse text normalization.
+             If there are multiple fsts, they are separated by a comma.
+           rule_fars:
+             If not empty, it specifies fst archives for inverse text normalization.
+             If there are multiple archives, they are separated by a comma.
+         """
+         self = cls.__new__(cls)
+         model_config = OfflineModelConfig(
+             fire_red_asr=OfflineFireRedAsrModelConfig(
+                 encoder=encoder,
+                 decoder=decoder,
+             ),
+             tokens=tokens,
+             num_threads=num_threads,
+             debug=debug,
+             provider=provider,
+         )
+ 
+         feat_config = FeatureExtractorConfig(
+             sampling_rate=16000,
+             feature_dim=80,
+         )
+ 
+         recognizer_config = OfflineRecognizerConfig(
+             feat_config=feat_config,
+             model_config=model_config,
+             decoding_method=decoding_method,
+             rule_fsts=rule_fsts,
+             rule_fars=rule_fars,
+         )
+         self.recognizer = _Recognizer(recognizer_config)
+         self.config = recognizer_config
+         return self
+ 
+     @classmethod
     def from_moonshine(
         cls,
         preprocessor: str,