知识库中相同文本块的不同相似度分数

Sohei · 2026 年2 月 5 日 06:34

我有一个关于 Dify 知识库向量搜索行为的问题。

示例：

相同文本：

“Macの場合はマウスの支給をしません。各自で調達してください。”
(“For Mac, a mouse is not provided. Please prepare one yourself.”)
（“对于 Mac，不提供鼠标。请自行准备。”）
但分数不同，例如：
- SCORE: 0.26
- SCORE: 0.19

（请参阅附带的截图）

我想了解为什么会发生这种情况。

相同文本块是否预期会因以下原因而具有不同的相似度分数：
- 存储在不同的文档中
- 不同的块 ID 或摄取顺序
- 元数据（文档标题、文件夹、描述等）的差异
- 文本分块时不同的周围上下文
或者这可能与以下因素有关：
- 嵌入时间 / 重新嵌入行为
- 向量数据库实现细节

我想澄清以下问题：

如果有人遇到过类似的行为或了解底层设计/规范，我将非常感谢您的见解。

kurokobo · 2026 年2 月 5 日 13:43

您好，如果块内的文本相同，那么可以合理地预期它们将具有相同的向量。

我想了解一下您的环境。您使用的是 Dify Cloud，还是自托管 Dify？您使用的是哪个嵌入模型（embedding model）？如果您是自托管，您使用的是哪个 Dify 版本和哪个向量数据库？

此外，似乎另一个帖子表现出反直觉的行为。

由于我无法在我的环境中重现这个问题，您的向量数据库中的数据可能存在某种不一致。
您能否尝试从头开始创建一个新的知识库，上传相同文档，然后看看问题是否仍然存在？

Sohei · 2026 年2 月 10 日 01:36

嗨，感谢您的详细回复。

我同意，如果分块（chunks）中的文本完全相同，那么生成的向量（vectors）也应该相同。

以下是关于我的环境的更多背景信息：

正如您所建议的，我将尝试以下方法来验证该行为：

如果在新知识库中问题没有出现，这可能表明原始环境中存在一些不一致。

再次感谢您的建议——我测试完后会向您汇报。

话题		回复	浏览量
Active chunks are pushed out of topK by UI-deleted chunks — do we need physical deletion? Seeking help	0	42	2026 年2 月 5 日
Knowledge database ingestion errors Discussion commuity	2	148	2026 年2 月 12 日
Dataset not found" when uploading documents to Knowledge Base Feedback	4	355	2026 年3 月 11 日
升级到1.10.1后，知识库召回出错 Discussion	1	474	2025 年12 月 11 日
How to Fix Knowledge Base Vector Search After Upgrading Dify \| Dify 升级后知识库向量检索报错的修复方法 Discussion case	2	501	2026 年1 月 11 日
升级最新版后知识库召回报错，grpc 错误，请求指导 Discussion	3	634	2025 年12 月 11 日
Understanding of Dify Knowledbases Discussion	1	217	2025 年11 月 12 日
求助，如何在不损失查询结果准确性的情况下优化知识库的检索速率 Seeking help case	0	152	2026 年1 月 6 日
「途中で応答がなくなる」問題に関して Discussion case	4	350	2025 年12 月 17 日
Plugin: Advanced Markdown Chunker – smarter Markdown chunking for RAG Discussion	2	394	2026 年1 月 14 日