文書抽出ツールノードが実行状態でフリーズしたままです

20260122141329_rec_

以前は正常でしたが、今はこのノードで止まってしまいます。

@Dify_Forum_Helper この問題をどう解決しますか

以前は正常だったのに、現在「ドキュメント抽出器」ノードが実行中のまま終了しない場合、おそらく基盤となる解析サービスまたはキューがスタックしている可能性が高いです。現在、インスタンスのログと設定にアクセスできないため、体系的なトラブルシューティングの手順を提供しますので、段階的に試してみてください。


1. まず影響範囲を確認する

  1. 非常に小さい単純なファイルでテストする

    • 例えば、数 KB のプレーンテキスト .txt ファイルや非常に小さい PDF など。
    • 小さいファイルでもスタックする場合:解析サービス / プラットフォーム自体の問題です。
    • 小さいファイルは正常で、大きいファイルがスタックする場合:ファイルが大きすぎる / タイムアウト / リソース不足の可能性があります。
  2. 同じアプリケーション内で最も単純なフローを新規作成してテストする

    • 開始 → ドキュメント抽出器 → 出力(テキストのみを出力)。
    • この新しいフローでも抽出器ノードでスタックするかどうかを確認します。
    • 新しいフローが正常で、古いフローが異常な場合:そのワークフロー設定に問題がある可能性があります(例:変数バインディング、前のノードに結果がないなど)。

2. ワークフロー実行の詳細を確認する

  1. 今回の実行の「実行記録 / Logs」を開く

    • ドキュメント抽出器ノードがエラーメッセージ、ステータスコード、タイムアウトなどを返しているか確認します。
    • 「実行中」のままで終了せず、エラーも表示されない場合、リクエストがずっと返ってこない可能性が高いです(例えば、外部解析サービスの呼び出しがスタックしているなど)。
  2. ドキュメント抽出器ノードの設定を確認する

    • 入力変数で前のノードの出力を使用していますか?
    • 変数問題を排除するために、一時的に「手動でファイルをアップロード」する方法でテストすることもできます。

3. セルフホスト環境の重点チェック(Docker / サーバーデプロイの場合)

Dify を自分でデプロイしている場合:

  1. 関連サービスを再起動する

    • システム全体を再起動するのが通常最も速い方法で、多くのキューの詰まりや子プロセスのフリーズを解消できます。
    • Docker デプロイの場合、通常は次のコマンドです。
      docker compose down
      docker compose up -d
      
    • 再起動後、同じワークフローを再度テストします。
  2. ログを確認する(重要)

    • バックエンド API / worker サービスのログで、今回の実行時間付近に次の情報がないか検索します。
      • unstructureddocument extractorextractor 関連のエラー
      • タイムアウト、OOM(メモリ不足)、接続失敗などのエラー
    • ログに明確なエラーがある場合は、そのエラーメッセージをスレッドに貼り付けてください。今後の特定に役立ちます。
  3. リソース使用量

    • サーバーの CPU / メモリは満杯ですか?
    • リソースが不足している場合、大きなファイルの解析時にフリーズしたり、非常に遅くなったりして、ノードがずっと実行されているように見えることがあります。
  4. 外部ドキュメント解析サービスを設定しているか

    • 以前に unstructured または他のサードパーティ解析サービスを接続していた場合:
      • これらのサービスが現在も実行されており、ネットワーク接続が正常であることを確認します(コンテナ名 / IP に変更がないか)。
      • サービスがダウンしている場合、Dify が応答を待っている間もスタックし続ける可能性があります。

4. クラウド版 / 非セルフホスト

公式クラウド版を使用している場合:

  1. 試すこと:

    • ブラウザを変更するか、シークレットモードで再試行する(ブラウザのキャッシュ / プラグインの干渉を排除するため)。
    • このワークフローをコピーし、全く同じフローを新規作成して、コピーしたものが正常に動作するか確認する。
  2. これらの情報を記録し、スレッドに投稿するか、公式サポートに提出する際に役立ててください:

    • 使用している Dify のバージョン(または「クラウド版」の記述)。
    • そのフローのアプリケーション ID / ワークフロー ID(機密情報は貼り付けないでください)。
    • 実行 ID(Run ID)またはおおよその時間。
    • 他のフローでも同じノードがスタックするかどうか。

5. 現在のスレッドに補足してほしい情報

より迅速な特定のために、このスレッドにいくつかの情報を補足してください:

  1. 現在使用しているのは:
    • 公式クラウド版ですか、それとも
    • セルフデプロイ(Docker / K8s、バージョン番号はいくつですか)?
  2. ドキュメントの種類とおおよそのサイズ(例:PDF、20MB、画像/スキャンを含む)。
  3. この問題は:
    • すべてのファイルでスタックしますか?それとも特定のファイルだけですか?
    • ドキュメント抽出器を使用する他のフローもすべてスタックしますか?
  4. セルフホストの場合:関連する時間のバックエンドログの一部を(匿名化して)貼り付けてください。

まず上記の 1~3 の手順を迅速に試して(小さいファイルでのテスト、最も単純なフローの新規作成、サービスの再起動)、その結果をこのスレッドに返信してください。その結果に基づいて、問題の範囲をさらに絞り込むお手伝いができます。

@Dify_Forum_Helper 公式クラウドを使用していますが、Word形式のドキュメントで内容が空でも、ずっと固まってしまいます。

この補足情報は非常に重要です。説明ありがとうございます。

現在、いくつかの現象が確認できます。

  • 自己ホスト型ではなく「公式クラウド」を使用している
  • ドキュメントタイプはWordで、「内容が空」であってもドキュメント抽出ノードで常にフリーズする
  • 説明とファイルサイズ、内容の複雑さとはあまり関係がなく、むしろ何らかの「タスクが正常に終了していない」問題のようです(最近のバージョン更新やバックエンドサービスの異常に関連している可能性があります)

クラウド環境であるため、あなたが出来ることは主に「フロントエンドの問題を排除し、公式の特定を支援すること」です。バックエンドログは公式のみが確認できます。以下の手順で迅速に試していただき、結果を直接返信してください。


1. 3つの比較テストを迅速に実施する

1)非常にシンプルなワークフローを新規作成する(既存のフロー設定の干渉を避けるため)

  • まったく新しいワークフローアプリケーションを新規作成する
  • 3つのノードのみを配置する:
    • 開始(ユーザー入力)
    • ドキュメント抽出器(ファイルをアップロード)
    • 出力(抽出されたテキストのみを出力)
  • 「空白のWord」で一度テストし、ドキュメント抽出器でフリーズするかどうかを確認してください:

A. もし 新規作成したシンプルなフローでもフリーズする場合

  • 現在のアカウント / 現在のリージョンのドキュメント解析サービスに問題がある可能性が非常に高く、公式の調査が必要です。

B. もし 新規フローは正常で、元のフローが依然としてフリーズする場合

  • 古いフローのどこかの設定が「壊れている」可能性があります(例:変数タイプの変更、古いバージョンのノードの残留など)。新しいフローを新規作成して再構築することを検討してください。

2)ファイルタイプを変更してABテストを行う

  • 同様に、新規作成したシンプルなフローで再度試してください:
    • 数KBの.txtテキストファイル
    • 非常に小さい.pdfファイル
  • 結果の比較:
    • もし txt / pdf は正常で、Wordのみフリーズする場合:クラウドの現在のWord解析に問題がある可能性があります。投稿に「txt / pdf は正常で、Word(空白ドキュメントでさえも)がフリーズする」と明確に記載してください。
    • もし すべてのタイプがフリーズする場合:ドキュメント解析の全体的な経路に異常があることを示しています。

3)ブラウザ / シークレットモードを変更して再度テストする

  • 目的は、ブラウザのキャッシュやプラグインなどの干渉を排除することだけです。
  • 同じシンプルなフローをシークレットウィンドウで再度実行し、現象が完全に一致するかどうかを確認してください。

2. 投稿にこれらの重要な調査結果を補足する

公式またはコミュニティのメンバーが迅速に問題を特定しやすく、また「プラットフォーム側の問題」として扱われやすくなるよう、現在の投稿に以下の形式で情報を直接補足することをお勧めします。

  1. 使用環境:

    • 「Dify公式クラウド(自己ホスト型ではない)」
  2. 再現手順(できるだけシンプルかつ明確に):

    • 新規ワークフロー:開始 → ドキュメント抽出器(ファイルをアップロード) → 出力
    • アップロードされたファイル:
      • 空白のWord(.docx)
      • txt / pdf もテストしたかどうか(結果も一緒に明確に記載してください)
    • 結果:
      • ドキュメント抽出器ノードが「実行中」と表示され続け、数分後も終了せず、エラーメッセージも表示されない。
  3. 時間情報を補足する:

    • 問題がおよそいつ頃から発生し始めたか(例:「今日の午後14:00頃から」)
    • 以前は同じフローが正常でした。
  4. もし可能であれば:

    • 新規作成したシンプルなフローと、ドキュメント抽出器ノードでフリーズしている箇所のスクリーンショットを添付してください。

これにより、公式が確認した際に、以下のいずれであるかを判断しやすくなります:

  • 特定のリージョンのドキュメント解析サービス/キューの異常
  • または、最近のドキュメント抽出器のアップグレードによってバグが導入されたのか(特にWord / 空白ドキュメントの場合)

3. 現時点での一時的な回避策(緊急の場合)

公式によって問題が修正されるまで、ドキュメントの処理を続ける必要がある場合は、以下を検討してください:

  1. まず、ローカルツールを使用してWordを.txtまたは.pdfにエクスポートし、それをドキュメント抽出器にアップロードして試してください。
  2. もしtxt / pdf がそちらで正常であれば、少なくとも一時的に業務を継続できます。
  3. 公式の確認 / 修正後、Wordを通常通り使用に戻してください。

もしよろしければ、あなたの:

  • 新規作成したシンプルなフローのテスト結果(Word / txt / pdf それぞれの挙動)
  • おおよその再現時間

この投稿の下に直接返信してください。私が「公式サポートに直接提供できる再現説明」のテンプレートに整理しますので、コピー&ペーストして提出するだけで済みます。

@Dify_Forum_Helper PDF形式は大丈夫ですが、Word文書はできません。公式に早急に修正してほしいです。

こちらで範囲を非常に明確に絞り込んでいただきました:

  • 公式クラウド
  • ドキュメント抽出器
  • PDFは正常
  • Word(空のドキュメントであっても)は必ずフリーズする

これは基本的に、クラウド側の「Word解析経路」における新しい問題であり、お客様のアカウントやワークフロー設定の使用方法の問題ではないと判断できます。

現在、お客様ができることは2つあります。1つは一時的な回避策、もう1つは公式の調査を容易にするために情報を補足することです。


1. 現在最も確実な一時的解決策

公式が修正するまで、以下をお勧めします:

  1. まずローカルでWordをPDFまたはTXTに変換する

    • Wordを.pdf / .txtとして保存する
    • ドキュメント抽出器で、元の.docxではなくPDF / TXTをアップロードする
    • お客様はすでに検証済みです:PDFは正常に処理を完了できるため、まずは業務が滞らないようにできます。
  2. 内容が少量の場合、以下も可能です:

    • Wordのテキスト内容を直接コピーし、ファイルアップロードではなく「ユーザー入力」に貼り付ける(内容が少ない場合に適しています)。

2. スレッドに「公式向け」の情報をさらに追記することをお勧めします

先ほどおっしゃったように:

PDF形式は問題ありませんが、Wordドキュメントはだめです。公式には早急な修正を希望します。

もう少し「バグ再現説明」のように記述できます。例えば、直接返信に以下を追加してください(コピーして修正可能):

環境:公式クラウド Dify
再現手順:

  1. 最もシンプルなワークフローを新規作成:開始 → ドキュメント抽出器(ファイルをアップロード) → テキスト出力
  2. 空白または任意のコンテンツを含むWord(.docx)をアップロード
    期待される結果:ノードの実行が完了し、抽出されたテキストが出力される
    実際の結果:ドキュメント抽出器ノードが「実行中」のまま長時間終了せず、エラーも発生しない
    比較:同じワークフローで、小容量のPDFをアップロードすると正常に完了する

このような記述方法は、公式の担当者が直接「再現」しやすく、プラットフォームのバグとして扱われやすくなります。


3. 今後のフォローアップ

  • これはクラウド側の問題であるため、お客様側ではバックエンドログを確認できません。公式の運用 / 開発チームによる調査を待つしかありません。
  • まずは「Word → PDF/TXTに変換してからアップロード」という方法で一時的にしのいでください。
  • もし今後、公式の担当者がスレッドで修正の進捗や時期について返信した場合、私をメンションしていただければ、既存のワークフロー設定を調整する必要があるかどうかを一緒に確認できます。

もしよろしければ、後でサポートに提出したり、他のチャネルで使用したりするのに便利な「中国語と英語のバイリンガル」再現説明を、もう一度推敲して差し上げることも可能です。

あなたのWord文書のサイズはどれくらいですか?テスト用のPDFはWord文書から変換されたものですか?