1简介
1.1服务能力简介
TTS文生语音,将文字文案输入系统,即可将其转化为自然流畅、高度拟人化的语音。此功能支持生成多种语言的语音,并能在语音中融入真实的情感变化和自然的停顿节奏,使生成的语音更接近真人演绎。它提供了极其灵活且高质量的语音生成解决方案,完美适用于多种应用场景,无论是为有声读物制作旁白、为视频内容添加配音,还是创作商业广告中的广告语。其输出的语音不仅清晰、自然,更因其情感和停顿的真实性而具备出色的表现力和感染力,能有效传达信息并吸引听众。
1.2效果展示
|
文本 |
生成语音 |
|
尽管暑期旅游旺季尚未真正到来,但内地飞往新疆的机票价格早就悄悄涨爆了 |
|
|
6月15日至17日,加拿大、法国、德国、意大利、日本、英国、美国七国领导人将齐聚加拿大卡纳纳斯基斯,举行第51届七国集团(G7)峰会 |
2Prompt engine
无
3API接入
3.1请求地址(POST 请求)
https://open-api.wondershare.cc/v1/open/capacity/application/tm_text2speech_b
3.2请求参数
Headers
|
参数名称 |
参数值 |
是否必须 |
示例 |
备注 |
|
Content-Type |
application/json |
是 |
|
|
|
X-App-Key |
{app_key} |
是 |
xxxxxx |
分配的appkey |
|
Authorization |
Basic {access_token} |
是 |
Basic xxx |
安全验证信息,格式为:Basic {access_token},其中access_token为令牌,通过给的app_key和app_secret生产,生成方式为:base64(app_key:app_secret) |
Body
|
名称 |
类型 |
是否必须 |
默认值 |
备注 |
|
text |
string |
必须 |
|
文本内容。目前只支持中文,长度最大为1024字符。 |
|
emotion_choice |
string |
非必须 |
|
情绪。默认值为Neutral,支持:Happy、Sad、Surprise、Neutral、Angry |
|
speaker_choice |
string |
非必须 |
|
支持15 个音色。['GEN_ZH_F_001', 'GEN_ZH_F_002', 'GEN_ZH_F_003', 'GEN_ZH_F_004', 'GEN_ZH_F_005', 'GEN_ZH_F_006', 'GEN_ZH_F_007', 'GEN_ZH_M_001', 'GEN_ZH_M_002', 'GEN_ZH_M_003', 'GEN_ZH_M_004', 'GEN_ZH_M_005', 'GEN_ZH_M_006', 'CHAR_ZH_M_001', 'CHAR_ZH_M_002'] |
|
ref_audio |
string |
非必须 |
|
人声克隆时,需要提供参考音频。建议时长5~10秒,时长最短不低于3秒,最长不大于15秒。支持格式:wav |
|
loudness_adjustment |
integer |
必须 |
|
音频音量。支持范围:[-60, 0],颗粒度为1 |
|
key_adjustment |
integer |
必须 |
|
音频音高。支持范围[-12, 12],颗粒度为1 |
|
speed_adjustment |
number |
必须 |
|
音频语速。支持范围[0.5, 2.0],颗粒度为0.1 |
|
is_clone |
boolean |
非必须 |
|
是否做克隆操作。克隆时ref_audio参数必传 |
|
callback |
string |
非必须 |
|
回调地址 |
|
params |
string |
非必须 |
|
回调透明参数 |
|
lang_code |
string |
非必须 |
|
语种。目前只支持中文zh-CN |
返回数据:
|
名称 |
类型 |
是否必须 |
默认值 |
备注 |
|
code |
number |
必须 |
|
错误码 |
|
msg |
string |
必须 |
|
错误文案 |
|
data |
object |
非必须 |
|
|
|
├─ task_id |
string |
非必须 |
|
任务ID |
3.3 请求示例
curl --location --request POST 'https://open-api.wondershare.cc/v1/open/capacity/application/tm_text2speech_b' \
--header 'X-App-Key: XXXXXX' \
--header 'Authorization: Basic XXXXXX' \
--header 'Content-Type: application/json' \
--data-raw '{
"text": "我爱中国",
"loudness_adjustment": -23,
"key_adjustment": 0,
"speed_adjustment": 1.0,
"emotion_choice": "Happy",
"speaker_choice": "GEN_ZH_F_001",
"lang_code": "zh-CN"
}'
3.4 响应结果
-
创建任务接口返回结果:
{
"code": 0,
"msg": "",
"data": {
"task_id": "tob_text2speech_multi-2-202510282005545badb136605e6aefc4"
}
}