ドキュメントエクストラクターはどこにありますか?

私はnova-2-multimodal-embeddings-v1:0を使用してマルチモーダルRAGを構築しようとしています。
Dify Extractorを使用して、画像とテキストを含むPDFファイルを処理した際、テキスト情報のみを取得できました。

以下のドキュメントに基づくと、Dify ExtractorではなくDoc Extractorを使用する必要があると考えています:
https://docs.dify.ai/en/use-dify/knowledge/knowledge-pipeline/knowledge-pipeline-orchestration#doc-extractor

しかし、https://cloud.dify.ai/の環境でDoc Extractorを見つけることができません。
このデータ処理ツールはどこにありますか?

image

image

「いいね!」 2

ありがとうございます。言語設定を英語に変更することで、見つけることができました。

しかし、これを使っても、PDFに含まれるテキストのみを抽出できるようです。画像とテキストが混在したドキュメントを、その意味を保ったまま知識ベースに変換する方法がわかりません。

Amazon Bedrock Knowledge Basesでは、「パース戦略」で「基礎モデルをパーサーとして指定」できますが、…

image

ドキュメントによると、Difyのエクストラクタープラグインが必要です。まだ使用したことはありませんが、後で試してみます。