文档提取工具节点一直卡在运行状态

20260122141329_rec_

之前都是正常的,现在就卡在这个节点

@Dify_Forum_Helper 如何解决这个问题

看你这边之前是正常的,现在“文档提取器”节点突然一直处于运行中不结束,多半是底层解析服务或队列卡住了。因为我现在拿不到你实例的日志和配置,只能给你一套比较系统的排查思路,你可以一步步试:


1. 先确认影响范围

  1. 换一个很小的简单文件测试

    • 例如几 KB 的纯文本 .txt 或很小的 PDF。
    • 如果小文件也卡住:说明是解析服务 / 平台本身的问题。
    • 如果小文件正常,大文件卡住:可能是文件太大 / 超时 / 资源不足。
  2. 在同一应用里新建一个最简单的流程测试

    • 开始 → 文档提取器 → 输出(只输出 text)。
    • 看是不是这个新的流程里也卡在提取器节点。
    • 如果新流程正常,而旧流程不正常:可能是那个工作流配置有问题(比如变量绑定、前一个节点无结果等)。

2. 检查工作流运行详情

  1. 打开这次运行的「运行记录 / Logs」

    • 看文档提取器节点有没有返回任何错误信息、状态码、超时之类。
    • 如果只有「执行中」没有结束,也没有报错,大概率是请求一直没返回(比如调用外部解析服务卡住)。
  2. 看文档提取器节点的配置

    • 输入变量里有没有用到上一个节点的输出?
    • 可以暂时改成「手动上传文件」方式做一次测试,排除变量问题。

3. 自托管环境重点检查(如你是 Docker / 服务器部署)

如果你是自己部署的 Dify:

  1. 重启相关服务

    • 直接重启整套服务通常是最快的方法,很多队列堵塞、子进程卡死可以被清理掉。
    • Docker 部署一般是:
      docker compose down
      docker compose up -d
      
    • 重启完再测试同一个工作流。
  2. 查看日志(关键)

    • 后端 API / worker 服务的日志中,搜索本次运行时间点附近是否有:
      • unstructureddocument extractorextractor 相关错误
      • 超时、OOM(内存不足)、连接失败等报错
    • 如果日志里有明确错误,可以把错误信息贴到帖子里,方便后续定位。
  3. 资源占用

    • 服务器 CPU / 内存是否打满?
    • 如果资源不够,解析大文件时容易卡死或非常慢,看起来就像节点一直在运行。
  4. 是否配置了外部文档解析服务

    • 如果你以前接了 unstructured 或其它第三方解析服务:
      • 确认这些服务现在还在运行,网络连通正常(容器名 / IP 有没变化)。
      • 服务挂了时,Dify 等待响应也可能会一直卡住。

4. 云端版本 / 非自托管

如果你用的是官方云端版本:

  1. 尝试:

    • 换浏览器或隐身模式重试一次(排除浏览器缓存 / 插件干扰)。
    • 复制这个工作流,新建一个一模一样的流程,看复制后的是否正常。
  2. 记录这些信息,方便发在帖子里或提交给官方支持:

    • 你的 Dify 版本(或「云端版本」说明)。
    • 该流程的应用 ID / 工作流 ID(不要贴敏感信息)。
    • 运行 ID(Run ID)或大概的时间点。
    • 同一个节点在其它流程是否也会卡住。

5. 建议你在当前帖子里补充的信息

为了更快帮你定位,可以在这个帖子再补充几条:

  1. 你当前使用的是:
    • 官方云端,还是
    • 自部署(Docker / K8s,版本号是多少)?
  2. 文档类型和大概大小(例如:PDF,20MB,包含图片/扫描)。
  3. 这个问题:
    • 所有文件都会卡?还是只有某几个文件?
    • 其它使用文档提取器的流程是否也全部卡住?
  4. 如是自托管:贴一小段相关时间的后端日志(脱敏后)。

你可以先按上面的 1~3 步快速试一下(小文件测试、新建最简流程、重启服务),把结果回复在这个帖子里,我可以再根据结果帮你往下缩小问题范围。

@Dify_Forum_Helper 使用的是官方云端,文档类型word 内容为空也会一直卡着

你这条补充信息很关键,谢谢说明。

现在可以确认几点现象:

  • 使用的是「官方云端」而不是自托管
  • 文档类型是 Word,而且「内容为空」也会一直卡在文档提取器节点
  • 说明和文件大小、内容复杂度关系不大,更像是某种「任务没正确结束」的问题(可能跟最近版本更新或后端服务异常有关)

因为是云端环境,你这边能做的主要是「排除前端问题 + 帮官方定位」,后端日志只能由官方查。建议你按下面步骤快速试一下,并把结果直接回帖:


1. 快速做 3 个对比测试

1)新建一个极简工作流(避免现有流程配置干扰)

  • 新建一个全新的工作流应用
  • 只放三个节点:
    • 开始(用户输入)
    • 文档提取器(上传文件)
    • 输出(只输出提取到的 text)
  • 用「空白 Word」测试一次,看是否依旧卡在文档提取器:

A. 如果 新建的极简流程也卡住

  • 很大概率是当前账号 / 当前区域的文档解析服务有问题,需要官方排查。

B. 如果 新建流程正常,原来的流程依然卡

  • 可能是旧流程里某个配置被“玩坏了”(比如变量类型变化、旧版本节点残留等),可以考虑新建一个流程重新搭一遍。

2)换文件类型做 AB 测试

  • 同样在新建的极简流程里再试:
    • 一个几 KB 的 .txt 文本文件
    • 一个很小的 .pdf
  • 对比结果:
    • 如果 txt / pdf 正常,只有 word 卡:说明云端当前的 Word 解析可能有问题,可以在帖子里明确写「txt / pdf 正常,word(甚至空文档)都卡住」。
    • 如果 所有类型都卡:说明是整个文档解析链路异常。

3)换浏览器 / 无痕模式再测一次

  • 目的只是排除浏览器里缓存、插件之类的干扰。
  • 同一个极简流程,用无痕窗口再跑一遍,确认现象是否完全一致。

2. 在帖子里补充这些关键排查结果

建议你直接在当前帖子补充下面格式的信息,这样方便官方或社区的小伙伴快速定位,也更容易被当成“平台侧问题”处理:

  1. 使用环境:

    • 「官方云端 Dify(非自托管)」
  2. 复现步骤(尽量简单清晰):

    • 新建工作流:开始 → 文档提取器(上传文件) → 输出
    • 上传的文件:
      • 空白 Word(.docx)
      • 是否也测试了 txt / pdf(把结果一并写清楚)
    • 结果:
      • 文档提取器节点一直显示「运行中」,数分钟后也不结束,没有报错信息。
  3. 补充一点时间信息:

    • 问题大约从什么时候开始出现(例如「今天下午 14:00 左右开始」)
    • 之前同样流程是正常的。
  4. 如果方便的话:

    • 附一张新建极简流程 + 卡在文档提取器节点的截图。

这样一来,官方看到会比较容易判断是:

  • 某个区域的文档解析服务/队列异常
  • 还是最近对文档提取器的升级引入了 bug(特别是针对 Word / 空文档的情况)

3. 目前你可以先这样临时绕过(如果着急用)

在问题没被官方修好之前,如果你只是要继续处理文档,可以考虑:

  1. 先用本地工具把 Word 导出成 .txt.pdf,再上传到文档提取器试一下。
  2. 如果 txt / pdf 在你那边是正常的,至少可以先保证业务继续跑;
  3. 等官方确认 / 修复后,再恢复正常用 Word。

如果你愿意的话,可以把你:

  • 新建极简流程的测试结果(word / txt / pdf 各自的表现)
  • 大概的复现时间点

直接回复在这个帖子下面,我可以帮你整理成一段「可直接给官方支持用的复现说明」模板,你复制粘贴提交就行。

@Dify_Forum_Helper pdf格式是可以滴,word文档就不行,希望官方赶紧修复

你这边已经帮忙把范围缩得很清楚了:

  • 官方云端
  • 文档提取器
  • PDF 正常
  • Word(哪怕空文档)必现卡死

这基本可以判断是云端侧「Word 解析链路」的一个新问题,而不是你账号或流程配置用法的问题了。

目前你能做的有两块:一个是临时绕过,另一个是把信息补充到位,方便官方排查。


1. 目前最稳的临时方案

在官方修复之前,建议你:

  1. 先在本地把 Word 转成 PDF 或 TXT

    • Word 另存为 .pdf / .txt
    • 在文档提取器里上传 PDF / TXT,而不是原始 .docx
    • 你已经验证过:PDF 是可以正常跑完的,可以先保证业务不被卡住。
  2. 如果你有少量内容,也可以:

    • 直接复制 Word 文本内容,粘贴到「用户输入」中,而不是走文件上传(适合内容不多的时候)。

2. 建议你在帖子里再补充一句“给官方看”的信息

你刚才说:

pdf格式是可以滴,word文档就不行,希望官方赶紧修复

可以再稍微写得「更像 Bug 复现说明」一点,比如直接回帖加上(可复制改一下):

环境:官方云端 Dify
复现步骤:

  1. 新建最简单流程:开始 → 文档提取器(上传文件) → 输出 text
  2. 上传空白或任意内容的 Word(.docx)
    预期:节点执行完成,输出提取的文本
    实际:文档提取器节点一直处于“运行中”,长时间不结束,没有报错
    对比:同样流程下,上传小体积 PDF 可以正常完成

这种描述方式方便官方同学直接「照着复现」,也更容易被当成平台 Bug 处理。


3. 接下来怎么跟进

  • 因为这是云端侧的问题,你这边看不到后台日志,只能等官方运维 / 开发那边排查。
  • 你可以先继续用 “Word → PDF/TXT 再上传” 的方式顶一下。
  • 如果后面有官方同学在帖子里回复了修复进度或时间,你也可以 @ 我,我可以帮你一起确认下是否还需要调整你现有的流程配置。

如果你愿意,我也可以帮你再润色一版「中英文双语」复现说明,方便你后面提交给支持或发到其他渠道用。

你的word文档大小是多少?测试用的pdf是不是word文档转过去的?