有人可以告诉我从哪里开始为本地文件开发一个简单的全文本搜索引擎?
我有一个带有LAMP的Debian 7服务器,并且已经在其上安装了Windows网络驱动器。到目前为止,我正在使用this script向其他本地网络用户显示目录树,他们可以在其中从已安装的网络驱动器下载文件。
但是我必须构建一个简单的搜索引擎,该引擎可以为已挂载文件夹中的本地文件的名称和内容(如果有的话)建立索引-Microsoft doc,docx,xls,xlsx,rtf,txt。搜索必须返回文件的名称,路径,如果文本中存在搜索词(如果文件包含文本)的一部分,则最好是返回路径。
有人可以为我指出正确的方向,我必须阅读并学习该操作吗?谢谢。
最佳答案
您需要一些工具。您需要使用某种东西才能对内容进行索引和搜索,并且已使用三种出色的工具为此问题标记了这个问题:lucene,solr和elasticsearch。其中每一个都有丰富的教程和示例,可帮助您入门。
您将需要的另一件事是从所有这些不同文件类型读取内容的方法。我建议Apache Tika。这是一个出色的工具包,可以读取您列出的所有格式,并且可以与Lucene很好地配合使用。
您可以在此问题中看到它们一起使用的示例:Tika in Action book examples Lucene StandardAnalyzer does not work
关于apache - 如何开发一个简单的搜索引擎以在本地文件中进行全文搜索,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22838500/