Llm节点如何支持多模态输入?

使用豆包doubao-seed-1-6或者qwen3-omni-flash,需要传入image_url或者video_url,用llm节点如何实现?

针对image_url,使用LLM对接 ,我的实现方法如下(欢迎更多分享探讨):

1、添加节点“http请求”

通过get 请求 image_url,获得输出结果 files的文件列表

2、添加节点“列表操作”

输入 files的文件列表,获得 输出文件 first_record

3、添加节点“LLM”

此时便可引用上一层节点的文件

注意:第一步http请求可能获得的图片可能存在gif格式(虽后缀为jpg/png/jpeg等),导致LLM无法解析,所以提前要做一个if判断,防止LLM报错

image

有点麻烦了,我现在用的http节点代替llm。楼下有个回复我看llm节点支持了文档输入了

你是用的什么版本呢?我用的1.10.1没有文档输入选项

自己参照可视化那块逻辑改的,针对document的模型增加了对应的配置

实现方法有多种,我的那种方法主要基于http请求先解析文件再使用LLM-VL模型结合提示词提取图片内容。楼下的朋友,使用支持该图片的模型直接提取,两种方法都可以试试,可结合模型成本自行评估。