Difyで、有効な(アクティブな)チャンクがtopK検索結果から押し出されるという問題に遭遇しています。
具体的には、UI経由で削除または無効化された一部のチャンクが依然として高い類似度スコアを持っている場合、それらがtopK結果を占有してしまいます。その結果、アクティブなチャンクがtopKから除外され、全く検索されません。
混乱するのは、これらのチャンクはUIからすでに削除されているため、ユーザーの視点からはもはや存在しないことです。このことから、UIでの削除は論理的な削除に過ぎず、それらのチャンクのベクトルがベクトルデータベースにまだ残っていてランキングに参加しているのではないかと疑問に思っています。
これが私の主な質問につながります。
-
UIで削除された、または非アクティブなチャンクが依然としてtopKランキングに影響を与えることは想定されていますか?
-
これを防ぐには、システムレベルでのベクトルの物理的な削除が必要ですか?
-
本番RAGシステムにおいて、アクティブなチャンクのみがtopK結果を競うようにDifyで推奨されるアプローチは何ですか?
topKランキング、削除、およびベクトルライフサイクルがどのように連携して機能するべきかについて、ご説明いただけると幸いです。