活动块被UI删除的块挤出topK — 我们需要物理删除吗?

我遇到了一个问题,在Dify中,有效的(活跃的)片段被挤出了topK检索结果。

具体来说,当一些通过UI删除或禁用的片段仍然具有很高的相似度分数时,它们会占据topK结果。结果,活跃片段被排除在topK之外,根本无法被检索到。

令人困惑的是,这些片段已经从UI中移除,因此从用户角度来看,它们已不再存在。这让我怀疑UI删除是否仅仅是逻辑删除,以及这些片段的向量是否仍然保留在向量数据库中并参与排名。

这引出了我的主要问题:

  1. UI删除或非活跃的片段是否仍然会影响topK排名,这是预期的行为吗?

  2. 防止这种情况是否需要在系统层面进行向量的物理删除?

  3. 在Dify中,有什么推荐的方法可以确保在生产环境RAG系统中只有活跃片段参与topK结果的竞争?

任何关于topK排名、删除和向量生命周期如何协同工作的澄清都将不胜感激。