我有一组需要索引的 200M 文档。每个文档都有一个自由文本和一组额外的稀疏元数据信息(100 多列)。
似乎自由文本索引的正确工具是 Lucene,而结构化稀疏元数据的正确工具是 HBase。
我需要查询数据并在自由文本搜索结果和结构化数据结果之间进行连接(例如,获取所有在文本中包含“早上好”短语并于 1980 年首次出版的书籍)。
我应该使用哪些工具/机制来连接结构化和非结构化查询?
结果可能包括数百万条记录(加入前后)
谢谢
萨尔
最佳答案
除了 hbase 上的 lucene 之外,我还想到了一些事情:
1)Solr/Lucene可以存储多个字段,每个字段可以有不同的类型。所以你的日期范围示例完全在 Solr 中是合理的。
2) 如果你说的是需要集群的真正庞大的数据集,还可以看看 ElasticSearch:http://www.elasticsearch.org/
3) Lily 试图回答您的确切问题 http://www.lilyproject.org/lily/index.html
关于lucene - 结构化和非结构化索引 - Lucene 和 Hbase,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6895174/