1简介

1.1服务能力简介

TTS文生语音,将文字文案输入系统,即可将其转化为自然流畅、高度拟人化的语音。此功能支持生成多种语言的语音,并能在语音中融入真实的情感变化和自然的停顿节奏,使生成的语音更接近真人演绎。它提供了极其灵活且高质量的语音生成解决方案,完美适用于多种应用场景,无论是为有声读物制作旁白、为视频内容添加配音,还是创作商业广告中的广告语。其输出的语音不仅清晰、自然,更因其情感和停顿的真实性而具备出色的表现力和感染力,能有效传达信息并吸引听众。

1.2效果展示

文本

生成语音

尽管暑期旅游旺季尚未真正到来,但内地飞往新疆的机票价格早就悄悄涨爆了

6月15日至17日,加拿大、法国、德国、意大利、日本、英国、美国七国领导人将齐聚加拿大卡纳纳斯基斯,举行第51届七国集团(G7)峰会

2Prompt engine

参数名称

参数值

是否必须

示例

备注

Content-Type

application/json

Authorization

Basic xxx

X-Prod-Id

123

Body

名称

类型

是否必须

默认值

备注

其他信息

text

string

必须

文本内容 支持中文:< 1024 tokens ( token->中文字,英文单词,标点等)

wsid

integer

必须

wsid

units_value

integer

必须

积分扣除单元,字符数

drive

string

非必须

如果输出的图片、视频等数据用云存储输出,此字段必填,json字符串类型 示例如下: { "space_id": 11111, // 云存储空间id "file_dest_path": "/path/sss", // 云存储存储路径(目录) "file_tag": // 文件标签 [ { "key": "key1", "value": "value1" }, { "key": "key2", "value": "value2" } ] }

emotion_choice

string

非必须

Default : Neutral ‒ Happy,Sad,Surprise,Neutral,Angry(高兴,悲伤,惊讶,平淡,愤怒)

speaker_choice

string

非必须

选择语者模板:默认女声,15 个音色。['GEN_ZH_F_001', 'GEN_ZH_F_002', 'GEN_ZH_F_003', 'GEN_ZH_F_004', 'GEN_ZH_F_005', 'GEN_ZH_F_006', 'GEN_ZH_F_007', 'GEN_ZH_M_001', 'GEN_ZH_M_002', 'GEN_ZH_M_003', 'GEN_ZH_M_004', 'GEN_ZH_M_005', 'GEN_ZH_M_006', 'CHAR_ZH_M_001', 'CHAR_ZH_M_002']

ref_audio

string

非必须

人声克隆时,需要提供参考音频。建议时长5~10sec,时长最短不低于3sec,最长不大于 15 sec,格式:wav

loudness_adjustment

integer

必须

调整设定音频生成音量:Default : -23 dB Range:-60 dB to 0 dB 建议:-35dB to -10dB gap=1

key_adjustment

integer

必须

调整设定音频生成音高:Default : 0 (semitone) Range: -12 to 12 (semitone) gap=1

speed_adjustment

number

必须

调整设定音频生成语速:Default : 1.0 Range: 0.5x to 2.0x

file_type

integer

非必须

0:oss 5-云存储

is_clone

boolean

非必须

是否做克隆操作:Default: false false: TTS true:克隆

callback

string

非必须

回调地址

params

string

非必须

回调透明参数

priority

number

非必须

任务优先级

lang_code

string

非必须

语种 目前只支持中文,默认 zh-CN

3.3返回数据

名称

类型

是否必须

默认值

备注

其他信息

code

number

必须

错误码

msg

string

必须

错误信息

data

object

非必须

├─ task_id

string

非必须

任务ID

3.4完整示例