这是一个 AI 综合语音处理平台,支持音频任务的前处理,实时处理,后处理三大板块的任务。
- TTS 文本转语音:优先 OpenAudio-S1;高端场景可选 Microsoft Azure TTS
- VC 音频克隆:IndexTTS(现 1.5 开源,关注 2.0);企业级备选 NeMo‑Megatron / NVIDIA Riva
- FMT 音频格式转换:FFmpeg + Pydub(功能全面 + Python 易集成)
- 中文实时转文本:FunASR(开源首选,流式);高精度补充:百度语音识别 API
- 英文实时转文本:Whisper-Stream(开源性价比高);备选 Google Cloud Speech‑to‑Text
- VAD(语音活动检测):PaddleSpeech VAD(首选,企业级部署友好);轻量备选 WebRTC VAD / SILERO VAD
- 语音降噪:PaddleSpeech 降噪(含 PaddleAudio,支持自定义噪声与批量处理);备选 NVIDIA RTX Voice / RNNoise Wrapper
- 音频转文本(离线/批量):PaddleSpeech ASR + 百度千帆 ASR 混合(本地控成本,高精度走云端);开源备选 Whisper
- 说话人识别:PaddleSpeech 声纹识别(ECAPA‑TDNN,支持 10000+ 说话人,提供完整 API);备选 PyAnnote‑Audio / WhisperX
- 对话总结:Qwen3(开源,性价比高)/ ERNIE‑3.0(中文强,云端补充);可用 LangChain 组装定制流程
webman: 项目后端 API
saiadmin-vue: 项目前端 用户综合平台(管理员+ 后台)
work-node: 各种后端工作节点