Knowledge Base 内の同一テキストチャンクで異なる類似度スコア

Sohei · 2026 年 2 月 5 日午前 6:34

Difyのナレッジベースにおけるベクトル検索の挙動について質問があります。

例：

（添付のスクリーンショットを参照）

なぜこのような現象が起こるのか理解したいです。

同一のテキストチャンクが、以下の理由により異なる類似度スコアを持つことは想定される挙動でしょうか？
- 異なるドキュメントに保存されていること
- 異なるチャンクIDや取り込み順序
- メタデータ（ドキュメントタイトル、フォルダ、説明など）の違い
- テキストがチャンク化された際の異なる周辺コンテキスト
あるいは、これは以下に関連している可能性がありますか？
- 埋め込みのタイミング / 再埋め込みの挙動
- ベクトルデータベースの実装詳細

以下の点を明確にしたいです。

もし同様の挙動を経験された方や、根本的な設計/仕様をご存知の方がいらっしゃいましたら、ぜひご意見をお聞かせください。

kurokobo · 2026 年 2 月 5 日午後 1:43

こんにちは、チャンク内のテキストが同じであれば、2つのベクトルが同じになるのは当然です。

環境について少しお伺いしたいのですが。Dify Cloudをご利用ですか、それともDifyをセルフホストされていますか？どの埋め込みモデルを使用していますか？セルフホストされている場合、どのDifyバージョンとどのベクトルデータベースを使用していますか？

また、別の投稿が直感に反する動作をしているようです。

私の環境ではこの問題を再現できないため、ベクトルデータベース内のデータに何らかの不整合がある可能性があります。
新しいナレッジベースをゼロから作成し、同じドキュメントをアップロードして、問題がまだ発生するかどうかを確認していただけますか？

Sohei · 2026 年 2 月 10 日午前 1:36

詳細なご回答ありがとうございます。

チャンク内のテキストがまったく同じであれば、結果として得られるベクトルも同じになるという点に同意します。

私の環境について、もう少し詳細を説明します。

ご提案いただいた通り、動作を確認するために以下を試してみます。

新しいナレッジベースで問題が発生しない場合、元の環境に何らかの不整合があることを示唆しているかもしれません。

ご提案いただき、改めてありがとうございます。テスト後、改めてご報告します。

トピック		返信	表示
Active chunks are pushed out of topK by UI-deleted chunks — do we need physical deletion? Seeking help	0	42	2026 年 2 月 5 日
Knowledge database ingestion errors Discussion commuity	2	148	2026 年 2 月 12 日
Dataset not found" when uploading documents to Knowledge Base Feedback	4	355	2026 年 3 月 11 日
升级到1.10.1后，知识库召回出错 Discussion	1	474	2025 年 12 月 11 日
How to Fix Knowledge Base Vector Search After Upgrading Dify \| Dify 升级后知识库向量检索报错的修复方法 Discussion case	2	501	2026 年 1 月 11 日
升级最新版后知识库召回报错，grpc 错误，请求指导 Discussion	3	634	2025 年 12 月 11 日
Understanding of Dify Knowledbases Discussion	1	217	2025 年 11 月 12 日
求助，如何在不损失查询结果准确性的情况下优化知识库的检索速率 Seeking help case	0	152	2026 年 1 月 6 日
「途中で応答がなくなる」問題に関して Discussion case	4	350	2025 年 12 月 17 日
Plugin: Advanced Markdown Chunker – smarter Markdown chunking for RAG Discussion	2	394	2026 年 1 月 14 日