"https://styletts2.github.io" (https://link.segmentfault.com/?enc=aQBu03DGBj0Y7Dz%2BC4o5ww%3D%3D.dXipKI7dPDt%2BTypJQUY0BnHRiXUeo65w7rsegbc8WGw%3D)
StyleTTS2:近乎人类水平的文本转语音库
它利用风格扩散和对抗训练与大型语音语言模型 (SLM) 来实现人类水平的 TTS 合成。(star 2.7K)
还有更多,可以参考:"https://mp.weixin.qq.com/s/OyxSSUPzGZWBLgCfQAI2wg" (https://link.segmentfault.com/?enc=jPzdQudydv%2Bl0i4DYZBMQQ%3D%3D.or1oN2PNCVG%2BHgJOcD9pyT6D0%2B8k3daWAuauF2DmIKuEMhirAjAUbweSG5FXHI0SMGMqNFKSEaJsFoZNmTrr4Q%3D%3D)
但是这个 styletts2 还不支持中文
"https://github.com/yl4579/StyleTTS2/issues/70" (https://link.segmentfault.com/?enc=euWfz2sbY59JZqYxsvmmUw%3D%3D.7v%2B5qpXrVWAGh7bt2d7WUydgd48qu%2B7CwuKOANPe5Xt6bq%2BVDNp%2Bc%2FABe426x76E)
下面还有其他的
***
"https://www.datalearner.com/blog/1051701014024122" (https://link.segmentfault.com/?enc=C0bJ0GmlXVbp0ySZR4kENg%3D%3D.O%2B%2Bb5wLWnYjXJzW8NrS%2Fy56X9XnN9fy5CGwyPLGHv9iWNtzHfPfM60lXDMx9qPDqNyIRu2PD1HUf7zJF4ovjpg%3D%3D)
Coqui开源的语音合成大模型XTTS V2
语音合成是大模型领域另一个发展十分迅猛但是技术发展相对语言模型较慢的领域。Coqui此次开源的XTTS V2也是一个非常神秘的语音合成模型。
根据官方的介绍,这个模型支持17中语言,可以基于6秒的语音就能克隆模仿声音。甚至包括克隆来源声音的风格和情绪。然而,可惜的是XTTS
V2并没有公布训练细节,而这个模型也不允许商用,你可以用来作为研究目的,而商用只允许用来测试。
该模型支持的语言列表:
语言名称 | 缩写 | 语言的中文
---|---|---
English | en | 英语
Spanish | es | 西班牙语
French | fr | 法语
German | de | 德语
Italian | it | 意大利语
Portuguese | pt | 葡萄牙语
Polish | pl | 波兰语
Turkish | tr | 土耳其语
Russian | ru | 俄语
Dutch | nl | 荷兰语
Czech | cs | 捷克语
Arabic | ar | 阿拉伯语
Chinese | zh-cn | 中文
Japanese | ja | 日语
Hungarian | hu | 匈牙利语
Korean | ko | 韩语
Hindi | hi | 印地语
官方有个在线演示,效果还是很可以的:"https://huggingface.co/spaces/coqui/xtts" (https://link.segmentfault.com/?enc=NBshO24heROqOjN5b1sFaw%3D%3D.ojcvqYLtpHoj%2F3ZYReSQO%2FU0V7hgx0zccSe0oC8I4FGFqjNNNSChZ3cVVnrs%2Fy%2FO)
不过不支持商用的原因可能是他们在推自己的云服务,大家也可以商业采购~
***
还有一个不开源,但是有很多免费额度的:"https://ttsmaker.com/zh-cn" (https://link.segmentfault.com/?enc=mGkwqwbTuXWdPdexusAP2w%3D%3D.BQQZ1FY2M4vEDSbMHSAugg7tV6j1YVVFI2zQWYv2HMc%3D)
***
又发现一个新的 "https://github.com/netease-youdao/EmotiVoice" (https://link.segmentfault.com/?enc=lzANfcpFWZ3jW946ZOQk6Q%3D%3D.N5Hi%2F9FCG3ZH8QQDuB1uOkAa1ZGmiM4mD%2BGeGDS%2BO9m7PFk%2FnzvnQZ6BYMWseQt8)
***
又发现一个新的 "https://github.com/fishaudio/fish-speech" (https://link.segmentfault.com/?enc=X8iSs9sBEvp1ZXaMbnTVSw%3D%3D.pcRTlDxn37f2OZukl4beFTlZsAYHS4H7c%2B0l3chhMToWLFFpkjk3unzhyAw38Jm4)
***
又发现一个新的 "https://github.com/AIGC-Audio/AudioGPT" (https://link.segmentfault.com/?enc=dzzqd2cQn3Or5ao4NtWDVg%3D%3D.EYVZSduiR8lJCgFbY9gFYFD0x4%2Bn37NUz1Das6SdY1SCvva6mEH7TJhSFVDXBNDB)
***
又发现一个新的 "https://github.com/myshell-ai/OpenVoice" (https://link.segmentfault.com/?enc=W5C7oKToMiikAnTthkDSpg%3D%3D.gHQvK1IvyxU8BhVe%2Byj%2BDjQ2CSv%2F9bD18wx3Ye2OkYOHco9xNMNPGCGxhflpJQzB)
***
又发现一个新的 "https://github.com/coqui-ai/TTS" (https://link.segmentfault.com/?enc=DZ7QdZi5M8zSa%2BIVl4OBow%3D%3D.CBAVK2mx3bsrphrcEgj%2FGRXrBbWcXRTneAGK8fbQ8R0%3D)
***
又发现一个新的 "https://github.com/suno-ai/bark" (https://link.segmentfault.com/?enc=TK9KTFajbF23RoFCIiHakQ%3D%3D.GicnukXka6gVXw2TcKuYhqLIl7O2fP2mS5ekoVyGwhY%3D)
***
还有一个免费且不支持中文且不开源的:
* "https://mp.weixin.qq.com/s/HUU6BycWUQ_NSPHJEFwhMg" (https://link.segmentfault.com/?enc=%2FUOr%2FGIj8S1uKV3GTQMM%2BA%3D%3D.O%2FroX9lmqU%2BpmrwCLW4MPSoSSddnUd024ZtoazflBL8Syxs9Oeixxyo%2BlG2m9jOUpVKd1uOrWzNoHbX%2BgckIYA%3D%3D)
* "https://audiobox.metademolab.com/capabilities" (https://link.segmentfault.com/?enc=0gmLrzraC046tUTcVwMukg%3D%3D.bsLUkzRAdZ577zzUVq6yPEkwzYqSRqWbtt7RllnDugXrSrqOYc5ADwAXfWaaVjyu)
***
还有一个不开源的:
* "https://elevenlabs.io/" (https://link.segmentfault.com/?enc=5F8SDt%2BEfke5lIpj9q4adw%3D%3D.OgL8PR2laNRmkyrKtvv20%2F0lrUQhr%2BmEep3P7si%2F2O0%3D)