我正在用 python 设计一个基于 okapi bm25 的搜索引擎,我应该使用什么来存储页面数据(相关性等)和 tf、idf 以便快速访问? python shelf 是否足以用于可扩展的设计?
谢谢。
最佳答案
我建议你看看wiredtiger它是强大的键值存储,比 leveldb 或 bsddb(shelf 模块使用 bsddb)更快,可以构建您的存储。它们是不同的模式,您可以在此处查看 stackoverflow 以了解有关 leveldb 或 bsddb 的问题。 .
如果您不熟悉键/值存储,我建议您使用 leveldb与 plyvel这是一个好的开始,但扩展性不如 wiredtiger。
关于python - BM-25搜索算法在python中的实现,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32537117/