包含语音数据处理、序列建模、模型训练、推理以及部署等的一整套智能语音技术研发工具集
核心算法
数据准备工具
示例脚本
可微分有限状态自动机; 基于 FSA 的 GPU 解码算法;Pruned RNNT 损失函数等。
各流行数据集示例脚本集合,zipformer 模型的实现,训练解码代码,模型导出脚本等。
语音数据集处理工具,流行数据集下载和预处理脚本,dataloader实现等。
Libtorch 为推理引擎的语音识别服务框架,主要支持服务端高并发,以 Python 接口为主。
Onnxruntime 为推理引擎的语音服务框架,支持服务器端和设备端,拥有众多编程语言接口,支持语音识别、说话人识别、自定义唤醒词和 TTS 等。
NCNN 为推理引擎的语音服务框架,主打设备端部署,拥有众多编程语言接口,极低资源需求。
Pruned RNNT 的单独仓库,只依赖于 Pytorch,无需安装 k2 也能使用 Pruned RNNT 损失函数。
以有声书资源构建语音识别数据集的完整方案,内含Libriheavy 数据集构建流程。
基于有声书的 50000 小时开源英文数据集,标注包含大小写和标点符号以及文本上文。
基于 Pytorch 的多码本量化器的训练脚本。
包含 Kaldi 拓展的 OpenFST python 接口,基于 pybind11 构建,不依赖于 Kaldi。
基于 OpenFst 的 Kaldi 解码器,安装方便,不依赖于 Kaldi。
将两个 ngram 语言模型相减的脚本(高阶减低阶)。