HgCNB/HTYF-1.5

Public

124

WeChat Login

Code Issues Pull requests Events Packages Insights

master

HTYF-1.5/README.md

荒哥

编辑文件 README.md

da67d49e

PreviewCode viewBlame

🎙️ VoxCPM 1.5 语音克隆魔法工坊

🔥 荒哥影视学员专属 · 三界最强语音克隆神器 🔥

🚀 一键启动 · 秒级克隆 · 影视级品质 🚀

只需3秒参考音频，即可完美复刻任意人声

⚡ 核心特色

🎯 零样本语音克隆仅需 3秒参考音频完美复刻音色、语调、情感支持中英日韩多语言	🚀 秒级生成 GPU加速推理实时流式输出批量处理支持
🎭 情感控制喜怒哀乐自由切换语气强度可调自然过渡不生硬	🎵 语速调节 0.5x ~ 2.0x 自由调节保持音质不失真适配各种场景

🎬 应用场景

场景	描述
🎬 影视配音	电影、电视剧、纪录片后期配音
📚 有声读物	小说、教材、新闻自动朗读
🎮 游戏开发	NPC对话、角色配音
📱 短视频	抖音、快手、B站内容创作
🎓 在线教育	课程讲解、知识分享
🤖 智能助手	虚拟主播、AI客服

🚀 一键启动

CNB云端（推荐）

点击下方按钮，选择GPU环境，即可秒级启动：

环境	显存	消耗	推荐
H20	96GB	32核时/小时	大批量处理
L40	48GB	16核时/小时	⭐ 日常使用

💡 首次启动需要安装依赖，约需5-10分钟，后续启动秒开！

🎯 使用指南

1️⃣ 上传参考音频

支持格式：MP3、WAV、FLAC、M4A
建议时长：3-10秒
音质要求：清晰无杂音

2️⃣ 输入目标文本

支持中英日韩混合
自动断句分段
支持SSML标记

3️⃣ 调整参数

🎚️ 语速：0.5x ~ 2.0x
🎭 情感：中性/开心/悲伤/愤怒
🔊 音量：自动归一化

4️⃣ 生成 & 下载

实时预览
一键下载
批量导出

🛠️ 技术架构


┌─────────────────────────────────────────────────────────┐
│                    VoxCPM 1.5 架构                       │
├─────────────────────────────────────────────────────────┤
│  ┌─────────┐    ┌─────────┐    ┌─────────┐             │
│  │ 前端UI  │───▶│ FastAPI │───▶│ VoxCPM  │             │
│  │ Gradio  │    │ Server  │    │ Model   │             │
│  └─────────┘    └─────────┘    └─────────┘             │
│       │              │              │                   │
│       ▼              ▼              ▼                   │
│  ┌─────────┐    ┌─────────┐    ┌─────────┐             │
│  │ 音频上传 │    │ ASR识别 │    │ GPU推理 │             │
│  │ 文本输入 │    │SenseVoice│   │ L40/H20 │             │
│  └─────────┘    └─────────┘    └─────────┘             │
└─────────────────────────────────────────────────────────┘

核心组件

组件	版本	说明
VoxCPM	1.5	核心语音克隆模型
SenseVoice	Small	语音识别ASR
PyTorch	2.0+	深度学习框架
CUDA	12.1	GPU加速
Gradio	4.0+	Web界面

📊 性能指标

指标	数值	说明
克隆相似度	95%+	MOS评分
生成速度	0.3s/句	L40 GPU
支持语言	4种	中/英/日/韩
最大文本	5000字	单次生成
参考音频	3-30秒	推荐3-10秒

🔒 激活说明

CNB云端环境

使用专属云端激活码，无需绑定机器码，每次启动自动激活。

本地Docker环境

获取机器码
联系荒哥获取激活码
输入激活码完成激活

📞 技术支持

渠道	联系方式
🎓 学员群	荒哥影视学员专属群
📺 B站	荒哥影视
💬 微信	联系荒哥获取

📝 更新日志

v1.5.0 (2024-12)

🎉 全新VoxCPM 1.5模型
⚡ 推理速度提升50%
🎭 新增情感控制功能
🔊 优化音质输出
🐛 修复已知问题

⚠️ 免责声明

本工具仅供学习研究使用，请勿用于：

❌ 伪造他人声音进行欺诈
❌ 制作虚假新闻或谣言
❌ 侵犯他人肖像权、名誉权
❌ 其他违法违规用途

使用本工具即表示您同意遵守相关法律法规。

🌟 Star 支持一下 🌟

如果觉得好用，请给个 Star ⭐

Made with ❤️ by 荒哥影视

35/F,Tencent Building,Kejizhongyi Avenue,Nanshan District,Shenzhen

京ICP备11018762号-111

🎯 零样本语音克隆仅需 3秒参考音频完美复刻音色、语调、情感支持中英日韩多语言	🚀 秒级生成 GPU加速推理实时流式输出批量处理支持
🎭 情感控制喜怒哀乐自由切换语气强度可调自然过渡不生硬	🎵 语速调节 0.5x ~ 2.0x 自由调节保持音质不失真适配各种场景