我们如何在 Dify 中向 TTS 模型(如 gpt-4o-mini-tts)传递“指令”?

问题:

大家好,

我正在使用 Dify 中的 文本转语音(TTS) 模块,并且使用的是 OpenAI 的 gpt-4o-mini-tts 模型。
在 OpenAI 的 API 或 Python SDK 中,我们可以添加一个额外的字段 instructions 来控制生成音频的 语气、风格或情绪。例如:

client.audio.speech.with_streaming_response.create(
    model="gpt-4o-mini-tts",
    voice="coral",
    input="今天是创造人们喜爱的东西的美好一天!",
    instructions="以愉快和积极的语气说话。"
)

然而,在 Dify 的 TTS 模块设置 中,我没有看到可以添加 instructions 的选项——只有模型、语音和输入文本字段。

在 Dify 中,有没有办法向 TTS 模型传递类似的 instructions 参数(例如,“以平静和专业的语气说话”)?
或者我们是否需要使用一些变通方法,比如将语气直接嵌入输入文本中,或者使用自定义 HTTP 模块来调用 OpenAI 的 TTS 接口?

非常感谢大家的任何指导或在 Dify 工作流中实现语气/风格控制的示例。

@Kirtan_Bhad
很遗憾,这目前是内置 TTS 节点的一个已知限制。

作为一种变通方案,您可以使用 Podcast Generator 插件,它支持 Instructions 功能(我为此目的添加了此功能 :slight_smile:)。虽然该插件设计用于生成两人对话风格的声音,但您可以通过传入单行脚本并将 Voice 2 参数填充为虚拟数据来生成单人声音。

当然,您也可以使用 HTTP 节点直接调用 OpenAI API。

希望这能帮到您!