Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

为什么英文TikTok,念出来会是T I K T O K? 是一个字母一个字母念的啊? #1933

Open
skyhhuc opened this issue Jan 14, 2025 · 14 comments

Comments

@skyhhuc
Copy link

skyhhuc commented Jan 14, 2025

为什么英文TikTok,念出来会是T I K T O K? 是一个字母一个字母念的啊? 第一次遇见把单词拆开来念的,我输入xiao hong shu他甚至都可以识别,但是tiktok这个单词无法识别,而是一个字母一个字母念。。。有哪里需要更新的吗?
123654

@DestoryVIP
Copy link

我记得英文有一个热词文件,改那个热词文件,然后标上因素就OK 了

@skyhhuc
Copy link
Author

skyhhuc commented Jan 16, 2025

我记得英文有一个热词文件,改那个热词文件,然后标上因素就OK 了

兄弟,麻烦截个图。我感觉这个有训练的声音克隆效果还是比较好的,比F5要好不少,但是就是T I K .T O K念出来,我人傻了

@Cosmo-klara
Copy link

我记得英文有一个热词文件,改那个热词文件,然后标上因素就OK 了

兄弟,麻烦截个图。我感觉这个有训练的声音克隆效果还是比较好的,比F5要好不少,但是就是T I K .T O K念出来,我人傻了

看看shell里面处理的结果呢?切分后和前端处理后的那个结果

@skyhhuc
Copy link
Author

skyhhuc commented Jan 16, 2025

我记得英文有一个热词文件,改那个热词文件,然后标上因素就OK 了

兄弟,麻烦截个图。我感觉这个有训练的声音克隆效果还是比较好的,比F5要好不少,但是就是T I K .T O K念出来,我人傻了

看看shell里面处理的结果呢?切分后和前端处理后的那个结果

其他单词都没问题,就tiktok是一个字母一个字母念出来的,我也尝试了tik tok分开,也是念字母。参考音频是没有这个tiktok的,这是我需要合成的语音里面的文本

@Cosmo-klara
Copy link

我刚刚测试了一下Tiktok,确实不是预处理的问题,那你可以参照这个自定义音素 #1728

@skyhhuc
Copy link
Author

skyhhuc commented Jan 16, 2025

我刚刚测试了一下Tiktok,确实不是预处理的问题,那你可以参照这个自定义音素 #1728

是不是也是一个字母一个字母的读出来?改代码我怕到时候这边改那边又出问题,有没有什么bug修复的模式,或者大佬参考隔壁的F5-TTS看看,因为我用那个就没有问题,正确识别,但是F5克隆的声音不如这个像

@skyhhuc
Copy link
Author

skyhhuc commented Jan 16, 2025

我刚才又尝试了用包含tiktok这个单词的音频区克隆,结果合成的文本包含tiktok该词的时候,仍然无法有正确的读音。

@L-jasmine
Copy link
Contributor

你这个 webui 不太对劲啊。正常来说出现这种情况是 你的推理语言选项选了中文,念英文的时候就会一个字母一个字母的念。

@skyhhuc
Copy link
Author

skyhhuc commented Jan 17, 2025

你这个 webui 不太对劲啊。正常来说出现这种情况是 你的推理语言选项选了中文,念英文的时候就会一个字母一个字母的念。

你试一下就知道了,都是念成一个字母一个字母。tiktok这个词

@L-jasmine
Copy link
Contributor

这个模型的输入是音素。对于英文是通过 g2p 把 英文转换成 音素,然后用音素来推理。
g2p 不认识 tiktok 这个词,所以导致了这个问题。

Image

要解决这个问题 你可以在 GPT_SoVITS/text/engdict-hot.rep 这个文件中自定义 tiktok 这个词的发音

Image
可能下面这两个起作用,因为在上一张图里面可以看到它被分割了

TIKTOK T IH1 K T AH0 K
TIK T IH1 K
TOK T AH0 K

wav 上传不了 我就不发效果了 我亲测是可以的

@skyhhuc
Copy link
Author

skyhhuc commented Jan 18, 2025

Image
我按照你给的热词文件修改了,可以读了,但是这个热词文件有没有什么音标标准的,好像读的不太准啊?会发成类似tiktik的发音

@skyhhuc
Copy link
Author

skyhhuc commented Jan 18, 2025

它会念成tik tuk,应该是这个热词文件要改一下,正确读音应该是类似tik tork

@L-jasmine
Copy link
Contributor

这个标准是 arpabet 音素

@skyhhuc
Copy link
Author

skyhhuc commented Jan 18, 2025

这个标准是 arpabet 音素

你好,我把正确读音发给chatgpt,让它帮我写那个音素,然后粘贴进去热词文件,现在读音基本正确了,感谢🙏🏻

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants