了解一下Bark

前些天在克隆说英文的声音那篇里面提到过一句Bark，Bark是一个通过文本提示生成音频的模型。

这种模型非常多啦，那为什么Bark引起了那么大的反响呢，因为它生成的人声非常逼真，不是常见的那种非常标准流利的主播的声音，而是就像我们平时交谈中说出的特别自然的人声，同时只要你在输入的文本中加上相应的指令，它还可以输出包括大笑、叹息、喘息，清嗓子等等这些非说话声，文本前后加上小音符，它还可以以歌声的形式把文字唱出来，当然不能指定旋律的。可能我这么说你们没啥感觉？听到那些声音时应该会有些震惊，反正我当时听到演示里面的大笑声时是有点毛骨悚然的......

不过只是听它的录音还不够呀，它没有demo页，想要试用要么本地部署，要么加入它的Suno Studio Waitlist，Waitlist加入半个月也没有收到确认通知，本地部署我不太敢尝试啦，不懂技术又没人可以请教，过程中很容易出错搞到一团糟，以前有过深刻教训的。

那么小白想玩该怎么办呢，可以找各路大神们的整合包呀，昨天就看到了一个，下载来试试！

一开始选了8G显存的模式，试了几次不成功想放弃了，也是我够机灵~，想到可能我只有8G显存支持不了8G，换了2G版，果然可以了！

首次运行要下载一些东西，然后每次合成一句话也是好慢，和我想的不一样呀，难道合成一句话和画幅画一样计算量很大？不懂啦。

遗憾的是它目前的几个中文声音模型都是外国人说中文的味道，是完全没有用中文语音来训练过吧，这个我倒是知道，不过没想到它的非说话声还有音乐都无法较好地支持中文（几乎不可用），所以就先玩玩英文的啦（我得经常提醒自己我是懂英文的，不能因为语言阻挡学习的道路哈哈~）。

Bark这个项目应该是可以做声音克隆的，不过现在没有开放，期待中。

对了，有同学去克隆那个英文声音了吗，前几天我的Rap声音终于克隆好了，去生成了几首Rap，“唱”得挺好，就是完全听不懂，哈哈。