新一代 Kaldi
极致性能 & 运行高效的自动语音识别

包含语音数据处理、序列建模、模型训练、推理以及部署等的一整套智能语音技术研发工具集

  1. 使用 pruned rnnt loss 进行快速训练
  2. 使用先进的 zipformer 建模
  3. 简单易用, 支持在各大主流平台部署
  4. 使用 Apache-2.0 开源协议 - 对商业应用非常友好
从这开始 演示

项目

k2

可微分有限状态自动机; 基于 FSA 的 GPU 解码算法;Pruned RNNT 损失函数等。

代码 文档
icefall

各流行数据集示例脚本集合,zipformer 模型的实现,训练解码代码,模型导出脚本等。

代码 文档
lhotse

语音数据集处理工具,流行数据集下载和预处理脚本,dataloader实现等。

代码 文档
sherpa

Libtorch 为推理引擎的语音识别服务框架,主要支持服务端高并发,以 Python 接口为主。

代码 文档
sherpa-onnx

Onnxruntime 为推理引擎的语音服务框架,支持服务器端和设备端,拥有众多编程语言接口,支持语音识别、说话人识别、自定义唤醒词和 TTS 等。

代码 文档
sherpa-ncnn

NCNN 为推理引擎的语音服务框架,主打设备端部署,拥有众多编程语言接口,极低资源需求。

代码 文档
fast rnnt

Pruned RNNT 的单独仓库,只依赖于 Pytorch,无需安装 k2 也能使用 Pruned RNNT 损失函数。

代码
text search

以有声书资源构建语音识别数据集的完整方案,内含Libriheavy 数据集构建流程。

代码
Libriheavy

基于有声书的 50000 小时开源英文数据集,标注包含大小写和标点符号以及文本上文。

代码
multi-quantization

基于 Pytorch 的多码本量化器的训练脚本。

代码
kaldifst

包含 Kaldi 拓展的 OpenFST python 接口,基于 pybind11 构建,不依赖于 Kaldi。

代码 文档
kaldi-decoder

基于 OpenFst 的 Kaldi 解码器,安装方便,不依赖于 Kaldi。

代码
divide lm

将两个 ngram 语言模型相减的脚本(高阶减低阶)。

代码