Export models from https://github.com/voicekit-team/T-one to sherpa-onnx (#2571)

This PR exports models from the T-one repository (https://github.com/voicekit-team/T-one) to sherpa-onnx format, creating a complete pipeline for Russian speech recognition using streaming CTC models. - Adds scripts to download, process, and test T-one models in sherpa-onnx format - Creates GitHub workflow for automated model export and publishing - Updates kaldi-native-fbank dependency to version 1.22.1

Export models from https://github.com/voicekit-team/T-one to sherpa-onnx (#2571)
This PR exports models from the T-one repository (https://github.com/voicekit-team/T-one) to sherpa-onnx format, creating a complete pipeline for Russian speech recognition using streaming CTC models. - Adds scripts to download, process, and test T-one models in sherpa-onnx format - Creates GitHub workflow for automated model export and publishing - Updates kaldi-native-fbank dependency to version 1.22.1
Fangjun Kuang · GitHub
Commit e4f48ce6a62f527d079237d0aaafdcef125c67ed e4f48ce6 1 parent e870afc0
.github/workflows/export-t-one-to-onnx.yaml
.gitignore
cmake/kaldi-native-fbank.cmake
scripts/t-one/README.md
scripts/t-one/add_meta_data.py
scripts/t-one/generate_tokens.py
scripts/t-one/run.sh
scripts/t-one/test.py
--- a/.github/workflows/export-t-one-to-onnx.yaml 0 → 100644
查看文件 @e4f48ce
+++ b/.github/workflows/export-t-one-to-onnx.yaml 0 → 100644
查看文件 @e4f48ce
+ name: export-t-one-to-onnx
+ 
+ on:
+   workflow_dispatch:
+ 
+ concurrency:
+   group: export-t-one-to-onnx-${{ github.ref }}
+   cancel-in-progress: true
+ 
+ jobs:
+   export-t-one-to-onnx:
+     if: github.repository_owner == 'k2-fsa' || github.repository_owner == 'csukuangfj'
+     name: export t-one
+     runs-on: ${{ matrix.os }}
+     strategy:
+       fail-fast: false
+       matrix:
+         os: [ubuntu-latest]
+         python-version: ["3.10"]
+ 
+     steps:
+       - uses: actions/checkout@v4
+ 
+       - name: Setup Python ${{ matrix.python-version }}
+         uses: actions/setup-python@v5
+         with:
+           python-version: ${{ matrix.python-version }}
+ 
+       - name: Install Python dependencies
+         shell: bash
+         run: |
+           pip install onnx==1.17.0 onnxruntime==1.17.1 soundfile librosa kaldi_native_fbank "numpy<2"
+ 
+       - name: Run
+         shell: bash
+         run: |
+           cd scripts/t-one
+ 
+           wget https://raw.githubusercontent.com/voicekit-team/T-one/refs/heads/main/LICENSE
+           ./run.sh
+ 
+           d=sherpa-onnx-streaming-t-one-russian-2025-09-08
+           mkdir $d
+           cp -v ./tokens.txt $d
+           cp -v ./model.onnx $d
+           cp -v ./russian_test_short_from_t_one.wav $d/0.wav
+           cp -v ./LICENSE $d
+           cp -v ./README.md $d
+ 
+           ls -lh $d
+ 
+           tar cjfv $d.tar.bz2 $d
+ 
+           ls -lh $d.tar.bz2
+ 
+           mv $d.tar.bz2 ../..
+           mv $d ../..
+ 
+       - name: Publish to huggingface
+         env:
+           HF_TOKEN: ${{ secrets.HF_TOKEN }}
+         uses: nick-fields/retry@v3
+         with:
+           max_attempts: 20
+           timeout_seconds: 200
+           shell: bash
+           command: |
+             git config --global user.email "csukuangfj@gmail.com"
+             git config --global user.name "Fangjun Kuang"
+ 
+             rm -rf huggingface
+             export GIT_LFS_SKIP_SMUDGE=1
+             export GIT_CLONE_PROTECTION_ACTIVE=false
+ 
+             m=sherpa-onnx-streaming-t-one-russian-2025-09-08
+ 
+             git clone https://csukuangfj:$HF_TOKEN@huggingface.co/csukuangfj/$m huggingface
+             cd huggingface
+             git fetch
+             git pull
+             echo "pwd: $PWD"
+             ls -lh ../$m
+             git lfs track "*.wav"
+ 
+             rm -rf ./*
+ 
+             cp -v ../$m/* ./
+ 
+             git lfs track "*.onnx"
+             git add .
+ 
+             ls -lh
+ 
+             git status
+ 
+             git commit -m "add models"
+             git push https://csukuangfj:$HF_TOKEN@huggingface.co/csukuangfj/$m main || true
+ 
+             cd ..
+ 
+       - name: Release
+         uses: svenstaro/upload-release-action@v2
+         with:
+           file_glob: true
+           file: ./*.tar.bz2
+           overwrite: true
+           repo_name: k2-fsa/sherpa-onnx
+           repo_token: ${{ secrets.UPLOAD_GH_SHERPA_ONNX_TOKEN }}
+           tag: asr-models
--- a/.gitignore
查看文件 @e4f48ce
+++ b/.gitignore
查看文件 @e4f48ce
@@ -148,3 +148,4 @@ voices.bin
 kitten-nano-en-v0_1-fp16
 *.egg-info
 *.jar
+ vocab.json
--- a/cmake/kaldi-native-fbank.cmake
查看文件 @e4f48ce
+++ b/cmake/kaldi-native-fbank.cmake
查看文件 @e4f48ce
 function(download_kaldi_native_fbank)
   include(FetchContent)
 
-   set(kaldi_native_fbank_URL   "https://github.com/csukuangfj/kaldi-native-fbank/archive/refs/tags/v1.21.3.tar.gz")
-   set(kaldi_native_fbank_URL2  "https://hf-mirror.com/csukuangfj/sherpa-onnx-cmake-deps/resolve/main/kaldi-native-fbank-1.21.3.tar.gz")
-   set(kaldi_native_fbank_HASH "SHA256=d409eddae5a46dc796f0841880f489ff0728b96ae26218702cd438c28667c70e")
+   set(kaldi_native_fbank_URL   "https://github.com/csukuangfj/kaldi-native-fbank/archive/refs/tags/v1.22.1.tar.gz")
+   set(kaldi_native_fbank_URL2  "https://hf-mirror.com/csukuangfj/sherpa-onnx-cmake-deps/resolve/main/kaldi-native-fbank-1.22.1.tar.gz")
+   set(kaldi_native_fbank_HASH "SHA256=b292ddd1fa121f28371d11c14dd016c59c54b3f0dbb2bb2cfdc82d562564d0f5")
 
   set(KALDI_NATIVE_FBANK_BUILD_TESTS OFF CACHE BOOL "" FORCE)
   set(KALDI_NATIVE_FBANK_BUILD_PYTHON OFF CACHE BOOL "" FORCE)
@@ -12,11 +12,11 @@ function(download_kaldi_native_fbank)
   # If you don't have access to the Internet,
   # please pre-download kaldi-native-fbank
   set(possible_file_locations
-     $ENV{HOME}/Downloads/kaldi-native-fbank-1.21.3.tar.gz
-     ${CMAKE_SOURCE_DIR}/kaldi-native-fbank-1.21.3.tar.gz
-     ${CMAKE_BINARY_DIR}/kaldi-native-fbank-1.21.3.tar.gz
-     /tmp/kaldi-native-fbank-1.21.3.tar.gz
-     /star-fj/fangjun/download/github/kaldi-native-fbank-1.21.3.tar.gz
+     $ENV{HOME}/Downloads/kaldi-native-fbank-1.22.1.tar.gz
+     ${CMAKE_SOURCE_DIR}/kaldi-native-fbank-1.22.1.tar.gz
+     ${CMAKE_BINARY_DIR}/kaldi-native-fbank-1.22.1.tar.gz
+     /tmp/kaldi-native-fbank-1.22.1.tar.gz
+     /star-fj/fangjun/download/github/kaldi-native-fbank-1.22.1.tar.gz
   )
 
   foreach(f IN LISTS possible_file_locations)
--- a/scripts/t-one/README.md 0 → 100644
查看文件 @e4f48ce
+++ b/scripts/t-one/README.md 0 → 100644
查看文件 @e4f48ce
+ # Introduction
+ 
+ This folder contains scripts for exporting models from
+ https://github.com/voicekit-team/T-one
+ to sherpa-onnx.
--- a/scripts/t-one/add_meta_data.py 0 → 100755
查看文件 @e4f48ce
+++ b/scripts/t-one/add_meta_data.py 0 → 100755
查看文件 @e4f48ce
+ #!/usr/bin/env python3
+ # Copyright    2025  Xiaomi Corp.        (authors: Fangjun Kuang)
+ 
+ 
+ import onnx
+ 
+ 
+ def main():
+     meta_data = {
+         "model_type": "t-one",
+         "language": "Russian",
+         "version": 1,
+         "maintainer": "k2-fsa",
+         "sample_rate": 8000,
+         "frame_length_ms": 300,  # chunk_duration_ms
+         "state_dim": 219729,
+         "comment": "This is a streaming CTC model for Russian with expected audio sample rate 8000",
+         "url": "https://github.com/voicekit-team/T-one",
+         "see_also": "https://huggingface.co/t-tech/T-one",
+     }
+     model = onnx.load("./model.onnx")
+ 
+     while len(model.metadata_props):
+         model.metadata_props.pop()
+ 
+     for key, value in meta_data.items():
+         meta = model.metadata_props.add()
+         meta.key = key
+         meta.value = str(value)
+     print("--------------------")
+ 
+     print(model.metadata_props)
+ 
+     onnx.save(model, "./model.onnx")
+ 
+ 
+ if __name__ == "__main__":
+     main()
--- a/scripts/t-one/generate_tokens.py 0 → 100755
查看文件 @e4f48ce
+++ b/scripts/t-one/generate_tokens.py 0 → 100755
查看文件 @e4f48ce
+ #!/usr/bin/env python3
+ # Copyright    2025  Xiaomi Corp.        (authors: Fangjun Kuang)
+ 
+ import json
+ 
+ 
+ def main():
+     with open("vocab.json") as f:
+         token2id = json.load(f)
+ 
+     with open("tokens.txt", "w", encoding="utf-8") as f:
+         for s, i in token2id.items():
+             if s == "|":
+                 s = " "
+             if s == "[PAD]":
+                 s = "<blk>"
+ 
+             f.write(f"{s} {i}\n")
+ 
+ 
+ if __name__ == "__main__":
+     main()
--- a/scripts/t-one/run.sh 0 → 100755
查看文件 @e4f48ce
+++ b/scripts/t-one/run.sh 0 → 100755
查看文件 @e4f48ce
+ #!/usr/bin/env bash
+ 
+ set -ex
+ 
+ if [ ! -f ./model.onnx ]; then
+   curl -SL -O https://hf-mirror.com/t-tech/T-one/resolve/main/model.onnx
+ fi
+ 
+ if [ ! -f ./vocab.json ]; then
+   curl -SL -O https://hf-mirror.com/t-tech/T-one/resolve/main/vocab.json
+ fi
+ 
+ if [ ! -f ./russian_test_short_from_t_one.wav ]; then
+   curl -SL -O https://github.com/k2-fsa/sherpa-onnx/releases/download/asr-models/russian_test_short_from_t_one.wav
+ fi
+ 
+ python3 ./add_meta_data.py
+ 
+ if [ ! -f ./tokens.txt ]; then
+   python3 ./generate_tokens.py
+ fi
+ 
+ ./test.py  --model ./model.onnx  --tokens ./tokens.txt --wave ./russian_test_short_from_t_one.wav
--- a/scripts/t-one/test.py 0 → 100755
查看文件 @e4f48ce
+++ b/scripts/t-one/test.py 0 → 100755
查看文件 @e4f48ce
+ #!/usr/bin/env python3
+ # Copyright      2025  Xiaomi Corp.        (authors: Fangjun Kuang)
+ 
+ import argparse
+ from typing import Tuple
+ 
+ import kaldi_native_fbank as knf
+ import numpy as np
+ import onnxruntime as ort
+ import soundfile as sf
+ 
+ 
+ def get_args():
+     parser = argparse.ArgumentParser(
+         formatter_class=argparse.ArgumentDefaultsHelpFormatter
+     )
+ 
+     parser.add_argument(
+         "--model",
+         type=str,
+         required=True,
+         help="Path to model.onnx",
+     )
+ 
+     parser.add_argument(
+         "--tokens",
+         type=str,
+         required=True,
+         help="Path to tokens.txt",
+     )
+ 
+     parser.add_argument(
+         "--wave",
+         type=str,
+         required=True,
+         help="The input wave to be recognized",
+     )
+ 
+     return parser.parse_args()
+ 
+ 
+ class OnnxModel:
+     def __init__(self, filename):
+         session_opts = ort.SessionOptions()
+         session_opts.inter_op_num_threads = 1
+         session_opts.intra_op_num_threads = 1
+ 
+         self.session_opts = session_opts
+ 
+         self.model = ort.InferenceSession(
+             filename,
+             sess_options=self.session_opts,
+             providers=["CPUExecutionProvider"],
+         )
+ 
+         meta = self.model.get_modelmeta().custom_metadata_map
+ 
+         self.frame_length_ms = int(meta["frame_length_ms"])
+         self.sample_rate = int(meta["sample_rate"])
+         self.state_dim = int(meta["state_dim"])
+ 
+     def get_init_state(self, batch_size=1):
+         return np.zeros((batch_size, self.state_dim), dtype=np.float16)
+ 
+     def __call__(self, x, state):
+         """
+         Args:
+           x: (batch_size, num_samples, 1), int32
+           state: (batch_size, 219729)
+         Returns:
+           log_probs: (batch_size, num_frames, vocab_size)
+           next_state: (batch_size, 219729)
+         """
+         log_prob, next_state = self.model.run(
+             [
+                 self.model.get_outputs()[0].name,
+                 self.model.get_outputs()[1].name,
+             ],
+             {
+                 self.model.get_inputs()[0].name: x,
+                 self.model.get_inputs()[1].name: state,
+             },
+         )
+         return log_prob, next_state
+ 
+ 
+ def load_audio(filename: str) -> Tuple[np.ndarray, int]:
+     data, sample_rate = sf.read(
+         filename,
+         always_2d=True,
+         dtype="float32",
+     )
+     data = data[:, 0]  # use only the first channel
+     samples = np.ascontiguousarray(data)
+     return samples, sample_rate
+ 
+ 
+ def load_tokens(filename):
+     ans = dict()
+     with open(filename, encoding="utf-8") as f:
+         for line in f:
+             fields = line.strip().split()
+             if len(fields) == 1:
+                 ans[int(fields[0])] = " "
+             else:
+                 ans[int(fields[1])] = fields[0]
+     return ans
+ 
+ 
+ def compute_feat(
+     samples,
+     sample_rate,
+     frame_length_ms: int,
+ ):
+     opts = knf.RawAudioSamplesOptions()
+     opts.frame_opts.samp_freq = sample_rate
+     opts.frame_opts.frame_length_ms = frame_length_ms
+     opts.frame_opts.frame_shift_ms = frame_length_ms
+ 
+     raw_audio_samples = knf.OnlineRawAudioSamples(opts)
+ 
+     raw_audio_samples.accept_waveform(sample_rate, samples)
+     raw_audio_samples.input_finished()
+ 
+     features = []
+ 
+     for i in range(raw_audio_samples.num_frames_ready):
+         f = raw_audio_samples.get_frame(i)
+         features.append(f)
+ 
+     return (np.array(features, dtype=np.float32) * 32768).astype(np.int32)
+ 
+ 
+ def main():
+     args = get_args()
+     print(vars(args))
+ 
+     model = OnnxModel(filename=args.model)
+ 
+     samples, sample_rate = load_audio(args.wave)
+     if sample_rate != model.sample_rate:
+         import librosa
+ 
+         samples = librosa.resample(
+             samples, orig_sr=sample_rate, target_sr=model.sample_rate
+         )
+         sample_rate = model.sample_rate
+ 
+     # Pad 0.5 seconds
+     samples = np.pad(samples, (0, 4000))
+ 
+     features = compute_feat(
+         samples=samples,
+         sample_rate=sample_rate,
+         frame_length_ms=model.frame_length_ms,
+     )
+     print(features.shape)
+ 
+     id2token = load_tokens(args.tokens)
+ 
+     blank = -2
+     for idx, token in id2token.items():
+         if token == "<blk>":
+             blank = idx
+ 
+     state = model.get_init_state()
+     token_id_list = []
+     for f in features:
+         log_probs, state = model(f[None, :, None], state)
+ 
+         max_token_ids = log_probs[0].argmax(axis=-1).tolist()
+         token_id_list += max_token_ids
+ 
+     unique_ids = []
+     prev = -1
+     for t in token_id_list:
+         if t == blank:
+             prev = t
+             continue
+ 
+         if t == prev:
+             continue
+ 
+         prev = t
+         unique_ids.append(prev)
+     text = "".join([id2token[i] for i in unique_ids])
+     print(text)
+ 
+ 
+ if __name__ == "__main__":
+     main()