做播客视频的一个思路探讨，使用indexTTS及Float数字人技术 · Issue #6

Public

WeChat Login

做播客视频的一个思路探讨，使用indexTTS及Float数字人技术#6

Open

created 2025-06-12

Edit

最近有一个新想法，琢磨着怎么让两个 AI 虚拟人正儿八经地聊起来，还得做成视频。说白了，就是搞一个技术版的“情景短剧”。

思路大概是这么个流程，你们看看靠不靠谱：

先搞定剧本。 这事儿直接交给 AI 就行，让它根据咱给的源内容，生成两个角色的对话。
然后是配音。 用一个叫 indextts 的工具，挺有意思的，能把文本一句一句地转成声音。我看它还有个双人对话的版本，正好，两个角色的语音就这么分头搞定了。
接着是上脸。 声音有了，得配上脸和口型。这里用一个叫 float 的工作流，把前面生成的声音喂进去，它就能给你吐出来一段段数字人说话的视频。因为给的头像是绿幕的，出来的视频自然也是绿幕背景，方便后面处理。
拼接成片。 上面搞出来的都是零碎的短视频，得把它们串起来。这活儿 ffmpeg 最拿手了，几行命令的事，就能把一堆小片段整合成一个完整的长视频。
最后一步，换个背景。 视频齐活了，但还顶着个绿油油的背景。把它换成咱想要的任何图片或者视频，这事儿就算大功告成了。