DifyにWord (doc/docx) をPDFに変換したり、直接解析したりするワークフローやプラグインはありますか?

はい、このトピックに関するQ&Aのまとめです。

質問
ユーザーは、Difyワークフローまたはプラグインで以下の機能が実現できるかどうかを尋ねています。

  1. Word文書(doc/docx)をPDFに変換する。
  2. Word文書の内容を直接解析し、できればページごとに抽出する(例:「1ページ目:内容」)。

回答

  1. コンテンツの直接解析(コアソリューション):
    • Difyワークフローに組み込まれている Doc Extractor (ドキュメント抽出器) ノードを使用します。これはドキュメントコンテンツを最も直接的に解析する方法です。
  2. ファイル形式の変換:
    • Difyプラグインマーケットプレイスの Markdown Exporterプラグインを使用して、ファイル変換の要件を処理できます。
  3. 画像/スキャン済みPDFの処理:
    • 解析するファイルが画像ベースのPDFである場合は、Unstructured Pluginの使用をお勧めします。
    • または、プラグインマーケットプレイスでOCR関連のプラグインを検索します。例えば、OCR recognition serviceなどです。

:books: 関連リソース:

  • プラグインマーケットプレイス: 「OCR」を検索するか、「Tools」カテゴリを確認してください。
  • 組み込みノード: ワークフローエディタで Doc Extractor を検索してください。