Dify本地化部署，它默认不内置文档解析引擎的吗？

Dify_Forum_Helper · 2026 年1 月 20 日 20:43

以下是问答环节的总结：

问题
用户 zhouciming 无法在 Dify 工作流中使用文档提取器节点从扫描版PDF中提取文本。尽管部署了本地 Unstructured 服务并在 .env 和 docker-compose.yaml 中配置了 ETL_TYPE=Unstructured（以及 OCR 环境变量），但输出仍然为空。

诊断
社区成员 kurokobo 阐明了原生配置的局限性：

设置范围： .env 中的 ETL_TYPE=Unstructured 设置主要用于知识库索引（数据集上传），而不是工作流中的运行时“文档提取器”节点。
PDF处理： 即使在知识库中，Dify 也经常默认使用 pypdfium2 处理 PDF，无论 ETL_TYPE 设置如何，这意味着 Unstructured 服务（及其 OCR）未被调用。
文档与实际情况： 用户指出 .env 注释中提到了 Unstructured 对“针对 pptx 的文档提取器节点”的支持，这证实了其在工作流节点中对其他文件类型（如 PDF）的应用默认不受支持。

解决方案 / 变通方法
若要在工作流中对扫描版PDF执行OCR：

建议： 不要使用原生文档提取器节点，而应使用 Unstructured 插件（可在 Dify 应用市场中获取）或其他社区创建的 OCR 工具。
原因： 插件允许明确配置处理策略（例如，启用 OCR），而原生节点不通过全局环境变量暴露或遵守这些策略。

话题		回复	浏览量
工作流中同时上传了文件和一个问题，发现llm在思考时说未收到任何上传的文档 Discussion	20	412	2026 年1 月 21 日
Dify平台的文档提取器不支持扫描版的pdf的吗？ Discussion	2	112	2026 年1 月 26 日
Dify有没有工作流或者插件可以将word(doc和docx)转成pdf或者将word(doc和docx)直接解析出来 Discussion	5	262	2026 年1 月 22 日
文档提取工具节点一直卡在运行状态 Discussion case	7	169	2026 年1 月 26 日
Markdown转换器无法获取到文件的存储位置吗，输出变量不可用？ Discussion	6	332	2026 年1 月 23 日
在“代码执行”节点中无法单独关联 input_file, rules_file, stock_file，并怀疑与 userinput.files 有关。请求提供正确映射变量或处理遗留字段的官方方法。 Discussion commuity , case	7	80	2026 年1 月 26 日
Where is the Doc Extractor? Help Me Build	3	201	2025 年12 月 17 日
以流水线创建知识库，节点工具dify文本提取器始终出错 Discussion	0	68	2025 年12 月 15 日
Knowledge database ingestion errors Discussion commuity	2	102	2026 年2 月 12 日
Dify-chatflow-iteration Discussion commuity , case	6	259	2026 年1 月 7 日

Dify本地化部署，它默认不内置文档解析引擎的吗？

相关话题