除了讲故事,MockingBird还可以用于以下场景:
总之,MockingBird可以帮助你在很多方面提高效率和创造力,让你更好地利用自己的声音和语音。
condaenvcreate-nenv_name-fenv.ymlmambaenvcreate-nenv_name-fenv.yml会创建新环境安装必须的依赖.之后用condaactivateenv_name切换环境就完成了.
env.yml只包含了运行时必要的依赖,暂时不包括monotonic-align,如果想要装GPU版本的pytorch可以查看官网教程。
按照原始存储库测试您是否已准备好所有环境。运行工具箱(demo_toolbox.py)需要Python3.7或更高版本。
如果在用pip方式安装的时候出现ERROR:Couldnotfindaversionthatsatisfiestherequirementtorch==1.9.0+cu102(fromversions:0.1.2,0.1.2.post1,0.1.2.post2)这个错误可能是python版本过低,3.9可以安装成功
仅支持手动新录音(16khz),不支持超过4MB的录音,最佳长度在5~15秒;实测5-8s为佳,超出会导致电流噪声;
首先,点击“Browse”按钮,选择一个时长较短的音频文件。接下来,选择合成器模型为75k,并输入待合成语音的文本内容。最后,点击“合成”按钮即可导出已合成的音频文件。
合成音频分为两步骤。第一步是声学模型合成梅尔图,你可以点击“Synthesizeonly”按钮进行合成。如果合成的梅尔图效果比较清晰,就可以继续进行下一步。如果不清晰,可以尝试多次合成。第二步是合成音频,你可以点击“Vocodeonly”按钮进行合成。当你更换声码器后,可以在更换后点击“Vocodeonly”按钮,避免重复合成梅尔图。同时进行这两步骤的按钮是“SynthesizeandVocode”。
合成完成后,你可以在左下角的“ToolboxOutput”位置找到新的音频文件。所有合成过的音频都会放在这里,你可以选择“Replay”重新播放,或者点击“Export”导出音频文件。
某些情况下,在长文本合成中出现坏音,可以通过以下方式调整优化:
硬件环境准备
软件环境准备
确保训练用的机器已经成功装好以下程序:
在练的过程中,至少要等到Plots里面的attention图出现收敛(Convergence),才能正常发出人声,如下图出现一条明显斜线,否则就是一团奇怪噪音,对于loss数字就多寡随意,丰俭由人了。