使用指南
登陆到文本转语音的服务后台。
点击左侧菜单中的“文本转语音”
然后,您会看到这样的界面:
在“选择语言”一栏中,选择或者搜索您要生成语音的语言(请用英文),然后点击右侧的“选择语音”,系统会自动列出该语言所支持的语音,建议选择有Neural标记的语音。
如果您希望在未来再次下载您生成的音频,可以在标题中,给该音频起个名字。
然后,在“文本”一栏中,输入您需要转换为语音的文本。如果您要使用SSML标记,或者微调语音,先选择需要微调的文本,然后,在“声音调试”中选择您的微调种类,系统会自动给文本加上SSML标记。
接着,点击下方深蓝色按钮“合成语音”开始生成语音,一旦语音生成完毕,系统会有提示,此时,可以点击绿色“播放音频”按钮,检查生成的语音是否符合您的需求,如果符合需求,点击橙色按钮“下载音频”。如果还想在未来下载该音频,点击“保持结果”。
文本转语音服务的计费单位是“字符”。
- 每一个英文字母、阿拉伯数字、符号都属于一个字符。
- 每一个中文汉字,是一个字符。
- 如果您使用SSML标记,那么每个标记符合都按一个字符计算。
例如:
- “I love you! ”是11个字符
- “大江东去浪淘尽” 是7个字符
在文本转语音的界面,将实时自动统计字符数。
SSML(Speech Synthesis Markup Language)是一种基于XML的标记语言,用于控制文本转语音(TTS)系统的输出。通过SSML,用户可以指定语音的音调、速度、音量、发音方式以及暂停等参数,使生成的语音更加自然和符合预期。
SSML的作用包括:
- 控制发音:可以指定某些单词或短语的发音方式。
- 调整语速和音调:可以改变语音的速度和音调,以适应不同的情境需求。
- 插入停顿:可以在文本中添加停顿,使语音更加连贯和自然。
- 更改音量:可以调节某些部分的音量,突出强调或减少背景噪音的干扰。
- 语言和口音:可以指定不同的语言和口音,使语音输出更符合目标受众的习惯。
例如 bike这个单词,如果使用了characters,生成音频的时候,就不是bike这个单词的发音,而是发出 b,i,k,e 4个字母。
你可以直接写ssml标记,也可以使用操作界面的快捷工具。方法是,选中需要标记的单词,然后选择一个SSML的功能。
在文本转语音(TTS)服务中,标记为“Neural”的声音指的是使用神经网络技术生成的语音。这种技术相较于传统的语音合成方法具有显著的优势,主要体现在以下几个方面:
自然度和流畅度:
- 神经网络技术,特别是深度学习模型,能够更好地捕捉和生成自然的语音特征,使得合成的语音听起来更接近人类自然发声。
- Neural TTS能够处理语音中的连贯性和上下文,使得生成的语音更加流畅,减少了机械感。
情感和表达:
- Neural TTS能够更准确地模仿人类的情感和语调变化,使得合成语音更具表现力。
- 通过训练复杂的神经网络模型,Neural TTS可以生成多样化的语音风格,适应不同的应用场景。
音质:
- 由于神经网络模型能够学习和捕捉更细致的音频特征,Neural TTS生成的语音通常具有更高的音质和清晰度。
我们的文本转语音服务为全球用户提供服务,因此默认语言是英文。你只要登陆后,在页头的语言选择中,选择 ZH 即可切换到中文界面。
您好,这一般是因为在某一个时刻网站访问量过大导致的问题,一般刷新一下页面,稍候一会儿可以恢复正常。