试试SoVITS!

终于还是决定跑一下sovits 4.0啦。这个东西其实在听燕姿的歌之前就留意过几次，但是训练歌星的声音翻唱我是一点兴趣都没有的，自己翻唱嘛，素人的效果还不如试试歌叽歌叽的黑科技，虽然每首歌都能唱，但操作难度系数也不是一个量级的。

但是从我妈开始学唱歌后我的想法有点改变，歌叽里是没我妈在唱的歌的，一首都没有......要么就跑跑试试？反正有整合包还有教程，只是要花点时间......试试就试试，决定啦！

得先从我的声音开始，我妈的声音没那么多现成的可用，我全民里前几年唱过的歌应该够用。

前期准备的工作量还是不小的。一共需要一到两小时的干声，一首歌才三五分钟，单纯人声部分可能也就一两分钟，我得下载至少几十首。一条条下载过，有些我觉得唱得还不错的是合唱，我需要把他人的声音剪切掉。

接着要处理掉音乐和和声。做整合包的那位大神推荐的软件是uvr5，每个文件要经过两道工序处理，过程是真挺繁琐，效果也是真的......很一般，处理完后还有混响，我又自作聪明的去我收藏的宝藏网站vocalremover上处理了一次，效果比uvr5好像好点，但是有致命的电流声，我又去去噪声神器adobe的podcast尝试了一次，这个完全不行，它的算法有问题，声音都给搞坏了。好吧，就乖乖用uvr5。

结果用着用着软件还出毛病了，无法调用处理模型，明明模型就在那，明明刚刚还好用，重启多次无果后，我略过第一步直接进行第二次处理，我听着效果差不多。🤦‍

合唱剪得我好辛苦，以前合唱时哪会想到某天还要把自己的声音剪出来，世界变化快啊~

声音准备工作花掉了大概两个小时吧，但是这过程非常享受，听着那些歌，都是酸酸甜甜的过往，这是sovits再厉害也不会带给你的体验。

接着进入下一道工序，声音切片，运算量很大，为了避免训练过程中爆显存，声音必须在几秒到十几秒最多，切片也有工具，Audio Slicer，这个软件可挺厉害，它会把声音切片到几秒十几秒，还会把无人声的部分去掉，两个多小时的声音不到十秒钟就切好了，我都做好了一个小时的准备。

共切出了519条，检查一下有没有长过十几秒的文件，果然有几个，调了软件参数再切，不过有几个文件怎么都切不动，只好删掉了。

都处理好后放进了训练文件夹，才有听说歌声效果会很差……差就差吧，先跑一次看看流程，里面还有些朗诵希望会做个弥补。

接下来开始最重要的环节啦，训练！具体的参数教程上全部都有，照着填就好了，昨天进行到数据预处理，处理完没有报错，配置文件也已写入完成，可以开始训练了，一看时间，快两点......

训练应该要尽量盯着，尤其刚开始，今晚再来吧，预计至少要二三十个小时才能完成，好在可以中断继续，很期待！