LLMノードはどのようにマルチモーダル入力をサポートしますか?

doubao-seed-1-6 または qwen3-omni-flash を使用する場合、image_url または video_url を渡す必要があります。LLM ノードでどのように実装すればよいですか?

image_urlに対してLLMを接続する方法について、私の実装方法を以下に示します(より多くの共有や議論を歓迎します):

  1. 「HTTPリクエスト」ノードを追加
    GETリクエストを使って image_url を呼び出し、出力結果として files のファイルリストを取得する。

  2. 「リスト操作」ノードを追加
    files のファイルリストを入力として、出力ファイル first_record を取得する。

  3. 「LLM」ノードを追加
    これで、前のノードのファイルを参照できるようになる。

注意:最初のHTTPリクエストで取得できる画像は、拡張子がjpg/png/jpegなどであるものの、実際にはgif形式のものがある可能性があるため、LLMがエラーを出すのを防ぐために、事前にif判断を行う必要がある。

image

少し面倒ですね。私は現在、LLMの代わりにHTTPノードを使用しています。下の返信を見ると、LLMノードがドキュメント入力をサポートしているようです。

どのバージョンをお使いですか?私は1.10.1を使用していますが、ドキュメント入力オプションがありません。

自己参照の可視化部分のロジックを変更し、documentのモデルに対して対応する設定を追加しました。

実装方法はいくつかあります。私の方法は、まずHTTPリクエストでファイルを解析し、その後LLM-VLモデルとプロンプトを組み合わせて画像の内容を抽出するというものです。下の皆さんは、その画像に対応するモデルを使って直接抽出する方法を試してみてください。どちらの方法も試してみることができ、モデルのコストを考慮して自分に合った方法を選んでください。