声音设计:如何编写高质量的声音描述?
要求与限制
在编写声音描述(voice_prompt)时,请务必遵循以下技术约束:
长度限制:
voice_prompt的内容长度不得超过 500 个字符。支持语言:描述文本仅支持中文和英文。
核心原则
高质量的声音描述(voice_prompt)是成功创建理想音色的关键。它如同声音设计的“蓝图”,直接指导模型生成具有特定特征的声音。
请遵循以下核心原则对声音进行描述:
具体而非模糊:使用能够描绘具体声音特质的词语,如“低沉”、“清脆”、“语速偏快”。避免使用“好听”、“普通”等主观且缺乏信息量的词汇。
多维而非单一:优秀的描述通常结合多个维度(如下文所述的性别、年龄、情感等)。单一维度的描述(如仅“女声”)过于宽泛,难以生成特色鲜明的音色。
客观而非主观:专注于声音本身的物理和感知特征,而不是个人的喜好。例如,用“音调偏高,带有活力”代替“我最喜欢的声音”。
原创而非模仿:请描述声音的特质,而不是要求模仿特定人物(如名人、演员)。此类请求涉及版权风险且模型不支持直接模仿。
简洁而非冗余:确保每个词都有其意义。避免重复使用同义词或无意义的强调词(如“非常非常棒的声音”)。
描述维度参考
维度 | 描述示例 |
性别 | 男性、女性、中性 |
年龄 | 儿童 (5-12岁)、青少年 (13-18岁)、青年 (19-35岁)、中年 (36-55岁)、老年 (55岁以上) |
音调 | 高音、中音、低音、偏高、偏低 |
语速 | 快速、中速、缓慢、偏快、偏慢 |
情感 | 开朗、沉稳、温柔、严肃、活泼、冷静、治愈 |
特点 | 有磁性、清脆、沙哑、圆润、甜美、浑厚、有力 |
用途 | 新闻播报、广告配音、有声书、动画角色、语音助手、纪录片解说 |
示例对比
✅ 推荐示例
“年轻活泼的女性声音,语速较快,带有明显的上扬语调,适合介绍时尚产品。”
分析:结合了年龄、性格、语速和语调,并指明了适用场景,形象立体。
“沉稳的中年男性,语速缓慢,音色低沉有磁性,适合朗读新闻或纪录片解说。”
分析:清晰定义了性别、年龄段、语速、音色特点和应用领域。
“可爱的儿童声音,大约8岁女孩,说话略带稚气,适合动画角色配音。”
分析:精确到具体年龄和声音特质(稚气),目标明确。
“温柔知性的女性,30岁左右,语调平和,适合有声书朗读。”
分析:通过“知性”、“平和”等词汇,有效传递了声音的情感和风格。
❌ 不推荐示例与改进建议
不推荐示例 | 主要问题 | 改进建议 |
好听的声音 | 过于模糊,主观性强,缺乏可执行的特征。 | 添加具体维度,如:“声线清澈的青年女声,语调温柔”。 |
像某明星的声音 | 涉及版权风险,模型无法直接模仿。 | 提取其声音特质进行描述,如:“声音成熟、富有磁性、语速沉稳的男声”。 |
非常非常非常好听的女声 | 信息冗余,重复词汇无助于定义音色。 | 移除重复词,并增加有效描述,如:“一个20~24岁,语气轻快、音调活泼、音色甜美的女声”。 |
123456 | 无效输入,无法解析为声音特征。 | 请提供有意义的文本描述,参考上方的推荐示例。 |
来源:酷虎云声音设计api开放平台

沪ICP备14003863号
贵公网安备 52010202003147号