dify
2
看你这边之前是正常的,现在“文档提取器”节点突然一直处于运行中不结束,多半是底层解析服务或队列卡住了。因为我现在拿不到你实例的日志和配置,只能给你一套比较系统的排查思路,你可以一步步试:
1. 先确认影响范围
-
换一个很小的简单文件测试
- 例如几 KB 的纯文本
.txt 或很小的 PDF。
- 如果小文件也卡住:说明是解析服务 / 平台本身的问题。
- 如果小文件正常,大文件卡住:可能是文件太大 / 超时 / 资源不足。
-
在同一应用里新建一个最简单的流程测试
- 开始 → 文档提取器 → 输出(只输出 text)。
- 看是不是这个新的流程里也卡在提取器节点。
- 如果新流程正常,而旧流程不正常:可能是那个工作流配置有问题(比如变量绑定、前一个节点无结果等)。
2. 检查工作流运行详情
-
打开这次运行的「运行记录 / Logs」
- 看文档提取器节点有没有返回任何错误信息、状态码、超时之类。
- 如果只有「执行中」没有结束,也没有报错,大概率是请求一直没返回(比如调用外部解析服务卡住)。
-
看文档提取器节点的配置
- 输入变量里有没有用到上一个节点的输出?
- 可以暂时改成「手动上传文件」方式做一次测试,排除变量问题。
3. 自托管环境重点检查(如你是 Docker / 服务器部署)
如果你是自己部署的 Dify:
-
重启相关服务
-
查看日志(关键)
- 后端 API / worker 服务的日志中,搜索本次运行时间点附近是否有:
unstructured、document extractor、extractor 相关错误
- 超时、OOM(内存不足)、连接失败等报错
- 如果日志里有明确错误,可以把错误信息贴到帖子里,方便后续定位。
-
资源占用
- 服务器 CPU / 内存是否打满?
- 如果资源不够,解析大文件时容易卡死或非常慢,看起来就像节点一直在运行。
-
是否配置了外部文档解析服务
- 如果你以前接了
unstructured 或其它第三方解析服务:
- 确认这些服务现在还在运行,网络连通正常(容器名 / IP 有没变化)。
- 服务挂了时,Dify 等待响应也可能会一直卡住。
4. 云端版本 / 非自托管
如果你用的是官方云端版本:
-
尝试:
- 换浏览器或隐身模式重试一次(排除浏览器缓存 / 插件干扰)。
- 复制这个工作流,新建一个一模一样的流程,看复制后的是否正常。
-
记录这些信息,方便发在帖子里或提交给官方支持:
- 你的 Dify 版本(或「云端版本」说明)。
- 该流程的应用 ID / 工作流 ID(不要贴敏感信息)。
- 运行 ID(Run ID)或大概的时间点。
- 同一个节点在其它流程是否也会卡住。
5. 建议你在当前帖子里补充的信息
为了更快帮你定位,可以在这个帖子再补充几条:
- 你当前使用的是:
- 官方云端,还是
- 自部署(Docker / K8s,版本号是多少)?
- 文档类型和大概大小(例如:PDF,20MB,包含图片/扫描)。
- 这个问题:
- 所有文件都会卡?还是只有某几个文件?
- 其它使用文档提取器的流程是否也全部卡住?
- 如是自托管:贴一小段相关时间的后端日志(脱敏后)。
你可以先按上面的 1~3 步快速试一下(小文件测试、新建最简流程、重启服务),把结果回复在这个帖子里,我可以再根据结果帮你往下缩小问题范围。
dify
4
@Dify_Forum_Helper 使用的是官方云端,文档类型word 内容为空也会一直卡着
你这条补充信息很关键,谢谢说明。
现在可以确认几点现象:
- 使用的是「官方云端」而不是自托管
- 文档类型是 Word,而且「内容为空」也会一直卡在文档提取器节点
- 说明和文件大小、内容复杂度关系不大,更像是某种「任务没正确结束」的问题(可能跟最近版本更新或后端服务异常有关)
因为是云端环境,你这边能做的主要是「排除前端问题 + 帮官方定位」,后端日志只能由官方查。建议你按下面步骤快速试一下,并把结果直接回帖:
1. 快速做 3 个对比测试
1)新建一个极简工作流(避免现有流程配置干扰)
- 新建一个全新的工作流应用
- 只放三个节点:
- 开始(用户输入)
- 文档提取器(上传文件)
- 输出(只输出提取到的 text)
- 用「空白 Word」测试一次,看是否依旧卡在文档提取器:
A. 如果 新建的极简流程也卡住:
- 很大概率是当前账号 / 当前区域的文档解析服务有问题,需要官方排查。
B. 如果 新建流程正常,原来的流程依然卡:
- 可能是旧流程里某个配置被“玩坏了”(比如变量类型变化、旧版本节点残留等),可以考虑新建一个流程重新搭一遍。
2)换文件类型做 AB 测试
- 同样在新建的极简流程里再试:
- 一个几 KB 的
.txt 文本文件
- 一个很小的
.pdf
- 对比结果:
- 如果 txt / pdf 正常,只有 word 卡:说明云端当前的 Word 解析可能有问题,可以在帖子里明确写「txt / pdf 正常,word(甚至空文档)都卡住」。
- 如果 所有类型都卡:说明是整个文档解析链路异常。
3)换浏览器 / 无痕模式再测一次
- 目的只是排除浏览器里缓存、插件之类的干扰。
- 同一个极简流程,用无痕窗口再跑一遍,确认现象是否完全一致。
2. 在帖子里补充这些关键排查结果
建议你直接在当前帖子补充下面格式的信息,这样方便官方或社区的小伙伴快速定位,也更容易被当成“平台侧问题”处理:
-
使用环境:
-
复现步骤(尽量简单清晰):
- 新建工作流:开始 → 文档提取器(上传文件) → 输出
- 上传的文件:
- 空白 Word(.docx)
- 是否也测试了 txt / pdf(把结果一并写清楚)
- 结果:
- 文档提取器节点一直显示「运行中」,数分钟后也不结束,没有报错信息。
-
补充一点时间信息:
- 问题大约从什么时候开始出现(例如「今天下午 14:00 左右开始」)
- 之前同样流程是正常的。
-
如果方便的话:
- 附一张新建极简流程 + 卡在文档提取器节点的截图。
这样一来,官方看到会比较容易判断是:
- 某个区域的文档解析服务/队列异常
- 还是最近对文档提取器的升级引入了 bug(特别是针对 Word / 空文档的情况)
3. 目前你可以先这样临时绕过(如果着急用)
在问题没被官方修好之前,如果你只是要继续处理文档,可以考虑:
- 先用本地工具把 Word 导出成
.txt 或 .pdf,再上传到文档提取器试一下。
- 如果 txt / pdf 在你那边是正常的,至少可以先保证业务继续跑;
- 等官方确认 / 修复后,再恢复正常用 Word。
如果你愿意的话,可以把你:
- 新建极简流程的测试结果(word / txt / pdf 各自的表现)
- 大概的复现时间点
直接回复在这个帖子下面,我可以帮你整理成一段「可直接给官方支持用的复现说明」模板,你复制粘贴提交就行。
dify
6
@Dify_Forum_Helper pdf格式是可以滴,word文档就不行,希望官方赶紧修复
你这边已经帮忙把范围缩得很清楚了:
- 官方云端
- 文档提取器
- PDF 正常
- Word(哪怕空文档)必现卡死
这基本可以判断是云端侧「Word 解析链路」的一个新问题,而不是你账号或流程配置用法的问题了。
目前你能做的有两块:一个是临时绕过,另一个是把信息补充到位,方便官方排查。
1. 目前最稳的临时方案
在官方修复之前,建议你:
-
先在本地把 Word 转成 PDF 或 TXT
- Word 另存为
.pdf / .txt
- 在文档提取器里上传 PDF / TXT,而不是原始
.docx
- 你已经验证过:PDF 是可以正常跑完的,可以先保证业务不被卡住。
-
如果你有少量内容,也可以:
- 直接复制 Word 文本内容,粘贴到「用户输入」中,而不是走文件上传(适合内容不多的时候)。
2. 建议你在帖子里再补充一句“给官方看”的信息
你刚才说:
pdf格式是可以滴,word文档就不行,希望官方赶紧修复
可以再稍微写得「更像 Bug 复现说明」一点,比如直接回帖加上(可复制改一下):
环境:官方云端 Dify
复现步骤:
- 新建最简单流程:开始 → 文档提取器(上传文件) → 输出 text
- 上传空白或任意内容的 Word(.docx)
预期:节点执行完成,输出提取的文本
实际:文档提取器节点一直处于“运行中”,长时间不结束,没有报错
对比:同样流程下,上传小体积 PDF 可以正常完成
这种描述方式方便官方同学直接「照着复现」,也更容易被当成平台 Bug 处理。
3. 接下来怎么跟进
- 因为这是云端侧的问题,你这边看不到后台日志,只能等官方运维 / 开发那边排查。
- 你可以先继续用 “Word → PDF/TXT 再上传” 的方式顶一下。
- 如果后面有官方同学在帖子里回复了修复进度或时间,你也可以 @ 我,我可以帮你一起确认下是否还需要调整你现有的流程配置。
如果你愿意,我也可以帮你再润色一版「中英文双语」复现说明,方便你后面提交给支持或发到其他渠道用。
你的word文档大小是多少?测试用的pdf是不是word文档转过去的?