前些天在克隆说英文的声音那篇里面提到过一句Bark,Bark是一个通过文本提示生成音频的模型。
这种模型非常多啦,那为什么Bark引起了那么大的反响呢,因为它生成的人声非常逼真,不是常见的那种非常标准流利的主播的声音,而是就像我们平时交谈中说出的特别自然的人声,同时只要你在输入的文本中加上相应的指令,它还可以输出包括大笑、叹息、喘息,清嗓子等等这些非说话声,文本前后加上小音符,它还可以以歌声的形式把文字唱出来,当然不能指定旋律的。可能我这么说你们没啥感觉?听到那些声音时应该会有些震惊,反正我当时听到演示里面的大笑声时是有点毛骨悚然的......
不过只是听它的录音还不够呀,它没有demo页,想要试用要么本地部署,要么加入它的Suno Studio Waitlist,Waitlist加入半个月也没有收到确认通知,本地部署我不太敢尝试啦,不懂技术又没人可以请教,过程中很容易出错搞到一团糟,以前有过深刻教训的。
那么小白想玩该怎么办呢,可以找各路大神们的整合包呀,昨天就看到了一个,下载来试试!
一开始选了8G显存的模式,试了几次不成功想放弃了,也是我够机灵~,想到可能我只有8G显存支持不了8G,换了2G版,果然可以了!
首次运行要下载一些东西,然后每次合成一句话也是好慢,和我想的不一样呀,难道合成一句话和画幅画一样计算量很大?不懂啦。



遗憾的是它目前的几个中文声音模型都是外国人说中文的味道,是完全没有用中文语音来训练过吧,这个我倒是知道,不过没想到它的非说话声还有音乐都无法较好地支持中文(几乎不可用),所以就先玩玩英文的啦(我得经常提醒自己我是懂英文的,不能因为语言阻挡学习的道路哈哈~)。
Bark这个项目应该是可以做声音克隆的,不过现在没有开放,期待中。
对了,有同学去克隆那个英文声音了吗,前几天我的Rap声音终于克隆好了,去生成了几首Rap,“唱”得挺好,就是完全听不懂,哈哈。
@tipu curate
这个要是完全产出标准的中文那就更棒啦
Upvoted 👌 (Mana: 35/45) Liquid rewards.
谢谢点点☺️
嗯,即便它不支持,很快也会有类似的模型支持中文
你好棒哟
谢谢玛丽☺️☺️