Difyはモデルのテキスト能力しか発揮できないのですか?

Difyで画像生成機能を実現するには、ツールを呼び出す方法しかないのでしょうか?これは、直接画像生成機能を持つ大規模モデルのAPIを呼び出すのとは異なります。直接APIを呼び出す場合、言語で記述した内容に基づいた画像が結果として得られますが、Difyではこの機能を実現できません。それは、Dify自体がこの機能をサポートしていないからでしょうか?テキスト処理能力を持つモデルを呼び出して関連ツールを活用するのみをサポートしているのでしょうか?

「いいね!」 1

私も同様の感覚を持っています。公式ドキュメントに記載されている画像生成のチュートリアルは、ツールにAI絵画ツール「Stability」を追加し、Stability APIを呼び出すことで実現されています。

私は後にGeminiに尋ねたところ、AIは現時点ではこれらのインターフェースを提供していないと答えました。Ollama内のRerankモデルも含めて、Difyでは認識されず使用できません。

Dify 1.4.0 以降、LLM ノードはテキストと画像の両方を含むマルチモーダル出力をサポートしています。
詳細については、リリースノートをご参照ください:Release v1.4.0 · langgenius/dify · GitHub

ただし、この機能を実際に使用するには、モデルとプラグインの両方がこの出力形式をサポートしている必要があります。
Gemini プラグインの一部のモデルはサポートされているようですが、他のプロバイダーについては不明です。