未来的通讯方式,会是这样一番情景吗?
最近,一个名为ChatTTS的文本转语音项目迅速蹿红,在GitHub上吸引了大量关注,仅三天时间就获得了9.2k的Star数。
此项目将文字转化为语音,其表现令人惊叹:
中英文混合说话也能轻松应对,ChatTTS的语言能力已达到新的高度。
从展示中可以看出,ChatTTS能够实现自然流畅的语音合成,并且支持多说话人功能。其还能预测并控制韵律特征,包括笑声、停顿和插入词等,这在开源TTS模型中是少有的。
ChatTTS目前支持中文和英文,其最大模型经过超过10万小时的中英文数据训练。HuggingFace中开源的版本为4万小时训练且未使用SFT技术的版本。
值得一提的是,上述展示的音频只是用来展示技术成果,并无冒犯或侵犯他益的意图。
此项目发布后,众多网友纷纷尝试,对声音的真实性难以分辨。
如此出色的效果,让人跃跃欲试。想要使用ChatTTS作为你的“嘴替”,可以按照以下方法操作。
ChatTTS主要有两大核心功能:文字转语音以及与大语言模型的实时语音对话。除此之外,在“Audio Seed”处可以调节指定说话人的音色,或者随机生成。但有测试者发现,即使使用相同的参数,生成的音色也可能有所变化。
2Noise表示,目前支持音色克隆功能,但需要更多的数据支持。
不过目前ChatTTS还无法处理较长的文本。有网友尝试让其读有声书,发现初始版本无法生成超过30秒的音频,需要进行手动修复。遇到较长文本时,ChatTTS的分词也可能出现问题。