Dify是不是只能发挥模型的文本能力?

在Dify中如果想要实现生成图像的能力是不是只有通过调用工具来实现?这个和直接调用具有生成图像能力的大模型API不一样,直接调用生成图像能力的API,给出的结果就是根据自己语言描述的图像,但是在Dify中不能实现这个能力,是因为Dify中就没有支持这个的能力吗?仅支持模型的文本能力去调用相关的工具实现?

1 个赞

我也有这种感觉,官方文档里给的生成图片教程,是在工具中添加 AI 绘图工具 Stability,调用Stability API实现的。

我后面问了Gemini,AI和我说暂时还没有提供这些接口,包扣ollama里面的Rerank模型,在Dify里面也不能识别出来使用

从 Dify 1.4.0 版本开始,LLM 节点已支持文本和图像的多模态输出。
更多详情,请参阅发布说明:Release v1.4.0 · langgenius/dify · GitHub

然而,要实际使用此功能,模型和插件都必须支持该输出格式。
似乎 Gemini 插件中的一些模型已支持,但我不确定其他提供商的情况。