问题:
大家好,
我正在使用 Dify 中的 文本转语音(TTS) 模块,并且使用的是 OpenAI 的 gpt-4o-mini-tts 模型。
在 OpenAI 的 API 或 Python SDK 中,我们可以添加一个额外的字段 instructions 来控制生成音频的 语气、风格或情绪。例如:
client.audio.speech.with_streaming_response.create(
model="gpt-4o-mini-tts",
voice="coral",
input="今天是创造人们喜爱的东西的美好一天!",
instructions="以愉快和积极的语气说话。"
)
然而,在 Dify 的 TTS 模块设置 中,我没有看到可以添加 instructions 的选项——只有模型、语音和输入文本字段。
在 Dify 中,有没有办法向 TTS 模型传递类似的 instructions 参数(例如,“以平静和专业的语气说话”)?
或者我们是否需要使用一些变通方法,比如将语气直接嵌入输入文本中,或者使用自定义 HTTP 模块来调用 OpenAI 的 TTS 接口?
非常感谢大家的任何指导或在 Dify 工作流中实现语气/风格控制的示例。