質問:
みなさん、こんにちは。
私はDifyでText-to-Speech (TTS) ブロックを使用しており、OpenAIのgpt-4o-mini-ttsモデルを使っています。
OpenAIのAPIやPython SDKでは、生成された音声のトーン、スタイル、またはムードを制御するために、instructionsという追加フィールドを含めることができます。たとえば:
client.audio.speech.with_streaming_response.create(
model="gpt-4o-mini-tts",
voice="coral",
input="Today is a wonderful day to build something people love!",
instructions="Speak in a cheerful and positive tone."
)
しかし、DifyのTTSブロックの設定では、instructionsを追加するオプションが見当たりません。利用可能なフィールドは、モデル、ボイス、入力テキストだけです。
Dify内で、instructionsパラメータ(例:「落ち着いたプロフェッショナルなトーンで話してください」)をTTSモデルに渡す方法はありますか?
あるいは、トーンを入力テキストに直接埋め込むなど、代替手段(例:カスタムHTTPブロックを使ってOpenAI TTSエンドポイントを呼び出す)が必要でしょうか?
TTSでトーンやスタイルの制御をDifyワークフロー内で実装したことがある方の、ご意見や例をぜひ教えていただけますと幸いです。