好的,以下是该主题的 Q&A 总结:
问题
用户询问是否有 Dify 工作流或插件可以实现以下功能:
- 将 Word 文档(doc/docx)转换为 PDF。
- 直接解析 Word 文档内容,最好能按页提取(如“第一页:内容”)。
解答
- 直接解析内容(核心方案):
- 使用 Dify 工作流中内置的 Doc Extractor (文档提取器) 节点。这是最直接解析文档内容的方法。
- 文件格式转换:
- 可以使用 Dify 插件市场的 Markdown Exporter 插件来处理文件转换需求。
- 处理图片/扫描件 PDF:
- 如果解析的文件是图片版 PDF,建议使用 Unstructured Plugin。
- 或者在插件市场搜索 OCR 相关插件,例如 OCR recognition service。
相关资源:
- 插件市场: 搜索 “OCR” 或查看 “Tools” 分类。
- 内置节点: 在工作流编辑器中查找
Doc Extractor。