DifyにWord (doc/docx) をPDFに変換したり、直接解析したりするワークフローやプラグインはありますか?

Difyに、Word (doc および docx) をPDFに変換したり、Word (doc および docx) を直接解析して「1ページ目:内容。2ページ目:内容。」のようにするワークフローやプラグインはありますか?

はい、あります。ファイル変換には Markdown Exporter を使用できます。おっしゃる内容の解析については、built-in nodes の doc extractor で解決できます。PDFが画像バージョンである場合は、Unstructured Plugin を試すことができます。また、OCR recognition service のようなOCRプラグインも検索してみてください。関連スレッド:工作流中同时上传了文件和一个问题,发现llm在思考时说未收到任何上传的文档 - #9 by Dify_Forum_Helper

「いいね!」 1

@Dify_Forum_Helper Q&Aをまとめてください

はい、このトピックに関するQ&Aのまとめです。

質問
ユーザーは、Difyワークフローまたはプラグインで以下の機能が実現できるかどうかを尋ねています。

  1. Word文書(doc/docx)をPDFに変換する。
  2. Word文書の内容を直接解析し、できればページごとに抽出する(例:「1ページ目:内容」)。

回答

  1. コンテンツの直接解析(コアソリューション):
    • Difyワークフローに組み込まれている Doc Extractor (ドキュメント抽出器) ノードを使用します。これはドキュメントコンテンツを最も直接的に解析する方法です。
  2. ファイル形式の変換:
    • Difyプラグインマーケットプレイスの Markdown Exporterプラグインを使用して、ファイル変換の要件を処理できます。
  3. 画像/スキャン済みPDFの処理:
    • 解析するファイルが画像ベースのPDFである場合は、Unstructured Pluginの使用をお勧めします。
    • または、プラグインマーケットプレイスでOCR関連のプラグインを検索します。例えば、OCR recognition serviceなどです。

:books: 関連リソース:

  • プラグインマーケットプレイス: 「OCR」を検索するか、「Tools」カテゴリを確認してください。
  • 組み込みノード: ワークフローエディタで Doc Extractor を検索してください。

ご回答ありがとうございます。非常に詳しく書いていただき、試してみます :+1::+1: :+1:

「いいね!」 1

PaddleOCRも試すことができます

「いいね!」 1