终于还是决定跑一下sovits 4.0啦。这个东西其实在听燕姿的歌之前就留意过几次,但是训练歌星的声音翻唱我是一点兴趣都没有的,自己翻唱嘛,素人的效果还不如试试歌叽歌叽的黑科技,虽然每首歌都能唱,但操作难度系数也不是一个量级的。
但是从我妈开始学唱歌后我的想法有点改变,歌叽里是没我妈在唱的歌的,一首都没有......要么就跑跑试试?反正有整合包还有教程,只是要花点时间......试试就试试,决定啦!
得先从我的声音开始,我妈的声音没那么多现成的可用,我全民里前几年唱过的歌应该够用。
前期准备的工作量还是不小的。一共需要一到两小时的干声,一首歌才三五分钟,单纯人声部分可能也就一两分钟,我得下载至少几十首。一条条下载过,有些我觉得唱得还不错的是合唱,我需要把他人的声音剪切掉。
接着要处理掉音乐和和声。做整合包的那位大神推荐的软件是uvr5,每个文件要经过两道工序处理,过程是真挺繁琐,效果也是真的......很一般,处理完后还有混响,我又自作聪明的去我收藏的宝藏网站vocalremover上处理了一次,效果比uvr5好像好点,但是有致命的电流声,我又去去噪声神器adobe的podcast尝试了一次,这个完全不行,它的算法有问题,声音都给搞坏了。好吧,就乖乖用uvr5。
结果用着用着软件还出毛病了,无法调用处理模型,明明模型就在那,明明刚刚还好用,重启多次无果后,我略过第一步直接进行第二次处理,我听着效果差不多。🤦
合唱剪得我好辛苦,以前合唱时哪会想到某天还要把自己的声音剪出来,世界变化快啊~
声音准备工作花掉了大概两个小时吧,但是这过程非常享受,听着那些歌,都是酸酸甜甜的过往,这是sovits再厉害也不会带给你的体验。
接着进入下一道工序,声音切片,运算量很大,为了避免训练过程中爆显存,声音必须在几秒到十几秒最多,切片也有工具,Audio Slicer,这个软件可挺厉害,它会把声音切片到几秒十几秒,还会把无人声的部分去掉,两个多小时的声音不到十秒钟就切好了,我都做好了一个小时的准备。
共切出了519条,检查一下有没有长过十几秒的文件,果然有几个,调了软件参数再切,不过有几个文件怎么都切不动,只好删掉了。
都处理好后放进了训练文件夹,才有听说歌声效果会很差……差就差吧,先跑一次看看流程,里面还有些朗诵希望会做个弥补。
接下来开始最重要的环节啦,训练!具体的参数教程上全部都有,照着填就好了,昨天进行到数据预处理,处理完没有报错,配置文件也已写入完成,可以开始训练了,一看时间,快两点......
训练应该要尽量盯着,尤其刚开始,今晚再来吧,预计至少要二三十个小时才能完成,好在可以中断继续,很期待!
感觉你是啥都懂,啥都会。
不是的老师有教程的,照着做就行啦😛