Dify有没有工作流或者插件可以将word(doc和docx)转成pdf或者将word(doc和docx)直接解析出来

Dify有没有工作流或者插件可以将word(doc和docx)转成pdf或者将word(doc和docx)直接解析成第一页:内容。 第二页:内容。

是有的。文件转换可以用 Markdown Exporter; 至于你说的解析内容,用 built-in nodes 的 doc extractor 就可以解决。如果你的 pdf 是图片版本,可以试试看 Unstructured Plugin 还可以搜索一下 OCR 插件比如:OCR recognition service。关联帖子:工作流中同时上传了文件和一个问题,发现llm在思考时说未收到任何上传的文档 - #12 by lysonober

@Dify_Forum_Helper 你来总结一下 Q&A

好的,以下是该主题的 Q&A 总结:

问题
用户询问是否有 Dify 工作流或插件可以实现以下功能:

  1. 将 Word 文档(doc/docx)转换为 PDF。
  2. 直接解析 Word 文档内容,最好能按页提取(如“第一页:内容”)。

解答

  1. 直接解析内容(核心方案):
    • 使用 Dify 工作流中内置的 Doc Extractor (文档提取器) 节点。这是最直接解析文档内容的方法。
  2. 文件格式转换:
    • 可以使用 Dify 插件市场的 Markdown Exporter 插件来处理文件转换需求。
  3. 处理图片/扫描件 PDF:

:books: 相关资源:

  • 插件市场: 搜索 “OCR” 或查看 “Tools” 分类。
  • 内置节点: 在工作流编辑器中查找 Doc Extractor

非常感谢您的回答,写的很详细,我试试 :+1::+1: :+1:

你也可以尝试 PaddleOCR。