algorithm - 减少 filenet 对象存储之间的搜索次数以根据文档创建时间查找文档的最佳方法?

标签 algorithm search tree filenet

例如,有 5 个对象存储。我正在考虑将文档插入其中,但不是按顺序插入。最初它可能是顺序的,但如果我可以使用某种排名方法插入,那么就更容易知道要搜索哪个对象存储来查找文档。目标是减少对象存储搜索的次数。这只有在插入使用某种智能算法时才能实现。

我发现一种有用的方法是使用当前年份的 MOD N(对象存储的数量)来确定文档的去向。我们能否对此有一些更好的方法?

最佳答案

如果您想要快速访问,有几个标准:

  1. 哈希函数必须可根据查询的数据进行重现。这意味着,很大程度上取决于您期望的查询。

  2. 您通常希望在商店中尽可能均匀地分配您的对象。如果你想并行,你想访问来自不同商店的给定查询的每个文档,这样它们就不会互相阻塞。因此,您的散列函数应尽可能分散到类似文档的不同商店。如果您希望与同一查询相关的文档来自同一年,请不要直接使用年份。

假设您希望能够进行可并行化的快速查询。相反,如果您有一个系统,在该系统中您首先必须打开一个可能代价高昂的存储连接,那么与同一查询相关的大多数文档都应该放在同一存储中,您不应该采纳我上面的建议。

关于algorithm - 减少 filenet 对象存储之间的搜索次数以根据文档创建时间查找文档的最佳方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9952554/

相关文章:

sql - Postgresql ltree 查询以查找具有最多 child 的 parent ;排除根

c++ - AABB 的分区

algorithm - 用户匹配算法

algorithm - 实现二分搜索有哪些陷阱?

search - Google如何如此快速地(针对如此多的文档)执行搜索(针对任何给定的查询),并且仍然设法自定义结果?

c# - 如何在知道同一条目中的其他值的同时获取表中的值?

r - R 中的比例树形图

algorithm - 寻找树的中心

python - 线性 N 次等式问题的最小二乘法

string - 寻找 MEM 的高效算法