我需要使用 lucene 测试全文索引和搜索,为此我正在寻找各种类型(pdf、doc、txt、xml、json...)的大量文件(大约 15 Gb) .
我试过维基百科的数据库,但那些只给我一个 xml 文件。
有人可以建议我在哪里可以找到这样的数据库吗?
最佳答案
您可以尝试使用 Full-Text Search with InnoDB .虽然使用 http://dumps.wikimedia.org/会更好。
关于用于测试全文搜索的数据库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13632545/