lucene - 结构化和非结构化索引 - Lucene 和 Hbase

标签 lucene indexing hbase

我有一组需要索引的 200M 文档。每个文档都有一个自由文本和一组额外的稀疏元数据信息(100 多列)。

似乎自由文本索引的正确工具是 Lucene，而结构化稀疏元数据的正确工具是 HBase。

我需要查询数据并在自由文本搜索结果和结构化数据结果之间进行连接(例如，获取所有在文本中包含“早上好”短语并于 1980 年首次出版的书籍)。

我应该使用哪些工具/机制来连接结构化和非结构化查询？
结果可能包括数百万条记录(加入前后)

谢谢
萨尔

最佳答案

除了 hbase 上的 lucene 之外，我还想到了一些事情:

1)Solr/Lucene可以存储多个字段，每个字段可以有不同的类型。所以你的日期范围示例完全在 Solr 中是合理的。

2) 如果你说的是需要集群的真正庞大的数据集，还可以看看 ElasticSearch:http://www.elasticsearch.org/

3) Lily 试图回答您的确切问题 http://www.lilyproject.org/lily/index.html

关于lucene - 结构化和非结构化索引 - Lucene 和 Hbase，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/6895174/

上一篇：.net - 需要在两个 .NET 进程之间快速且频繁地进行通信

下一篇：sql - vb.net linq 插入新记录

相关文章：

java - 监听HBase表更新

java - 从 Storm bolt 将行插入 HBase

java - 如果 HBase 中存在则更新行的时间戳

java - 在 Lucene 4 中，AtomicReader 和 CompositeReader 有什么区别

java - 根据数字字段对 Lucene 中的搜索结果进行排序

java - Lucene 内部如何执行删除？

elasticsearch - 如何在不影响性能，可扩展性的前提下获得更好的相关性，以及如何避免Elasticsearch的分片效应

mysql - 创建具有约 6 列复合键的表有何含义？

sqlite - 索引 SQLite 数据库 : Empty Index ?

sql - PostgreSQL 忽略时间戳列上的索引