DifyでTTSモデル(例:gpt-4o-mini-tts)に「指示」を渡す方法は?

質問:

みなさん、こんにちは。

私はDifyでText-to-Speech (TTS) ブロックを使用しており、OpenAIのgpt-4o-mini-ttsモデルを使っています。
OpenAIのAPIやPython SDKでは、生成された音声のトーン、スタイル、またはムードを制御するために、instructionsという追加フィールドを含めることができます。たとえば:

client.audio.speech.with_streaming_response.create(
    model="gpt-4o-mini-tts",
    voice="coral",
    input="Today is a wonderful day to build something people love!",
    instructions="Speak in a cheerful and positive tone."
)

しかし、DifyのTTSブロックの設定では、instructionsを追加するオプションが見当たりません。利用可能なフィールドは、モデル、ボイス、入力テキストだけです。

Dify内で、instructionsパラメータ(例:「落ち着いたプロフェッショナルなトーンで話してください」)をTTSモデルに渡す方法はありますか?
あるいは、トーンを入力テキストに直接埋め込むなど、代替手段(例:カスタムHTTPブロックを使ってOpenAI TTSエンドポイントを呼び出す)が必要でしょうか?

TTSでトーンやスタイルの制御をDifyワークフロー内で実装したことがある方の、ご意見や例をぜひ教えていただけますと幸いです。

@Kirtan_Bhad
残念ながら、これは現在のところ組み込みTTSノードの既知の制限です。

回避策として、Podcast Generatorプラグインを使用できます。このプラグインはInstructions機能をサポートしており(この目的のためにこの機能を追加しました :slight_smile: )。このプラグインは2人の会話形式の音声生成を目的としていますが、1行のスクリプトを渡し、Voice 2のパラメータにダミーデータを入力することで、単一の音声を生成できます。

もちろん、HTTPノードを使用してOpenAI APIを直接呼び出すことも可能です。

お役に立てれば幸いです。

「いいね!」 1