logo
0
0
WeChat Login
guozhijian611<3095300995@qq.com>
feat: 优化日志管理系统,增加自动清理和内存监控功能

项目说明文档

这是一个 AI 综合语音处理平台,支持音频任务的前处理,实时处理,后处理三大板块的任务。

前处理

  1. TTS 文本转语音:优先 OpenAudio-S1;高端场景可选 Microsoft Azure TTS
  2. VC 音频克隆:IndexTTS(现 1.5 开源,关注 2.0);企业级备选 NeMo‑Megatron / NVIDIA Riva
  3. FMT 音频格式转换:FFmpeg + Pydub(功能全面 + Python 易集成)

实时处理

  1. 中文实时转文本:FunASR(开源首选,流式);高精度补充:百度语音识别 API
  2. 英文实时转文本:Whisper-Stream(开源性价比高);备选 Google Cloud Speech‑to‑Text

后处理

  1. VAD(语音活动检测):PaddleSpeech VAD(首选,企业级部署友好);轻量备选 WebRTC VAD / SILERO VAD
  2. 语音降噪:PaddleSpeech 降噪(含 PaddleAudio,支持自定义噪声与批量处理);备选 NVIDIA RTX Voice / RNNoise Wrapper
  3. 音频转文本(离线/批量):PaddleSpeech ASR + 百度千帆 ASR 混合(本地控成本,高精度走云端);开源备选 Whisper
  4. 说话人识别:PaddleSpeech 声纹识别(ECAPA‑TDNN,支持 10000+ 说话人,提供完整 API);备选 PyAnnote‑Audio / WhisperX
  5. 对话总结:Qwen3(开源,性价比高)/ ERNIE‑3.0(中文强,云端补充);可用 LangChain 组装定制流程

项目结构

webman: 项目后端 API saiadmin-vue: 项目前端 用户综合平台(管理员+ 后台) work-node: 各种后端工作节点

About

数据中台与 API 接口

8.24 MiB
0 forks0 stars2 branches0 TagREADMEMIT license
Language
Vue41.4%
PHP30.4%
JavaScript12.7%
HTML7.3%
Others8.2%