apache - 如何开发一个简单的搜索引擎以在本地文件中进行全文搜索

标签 apache solr lucene elasticsearch full-text-search

有人可以告诉我从哪里开始为本地文件开发一个简单的全文本搜索引擎?

我有一个带有LAMP的Debian 7服务器,并且已经在其上安装了Windows网络驱动器。到目前为止,我正在使用this script向其他本地网络用户显示目录树,他们可以在其中从已安装的网络驱动器下载文件。

但是我必须构建一个简单的搜索引擎,该引擎可以为已挂载文件夹中的本地文件的名称和内容(如果有的话)建立索引-Microsoft doc,docx,xl​​s,xlsx,rtf,txt。搜索必须返回文件的名称,路径,如果文本中存在搜索词(如果文件包含文本)的一部分,则最好是返回路径。

有人可以为我指出正确的方向,我必须阅读并学习该操作吗?谢谢。

最佳答案

您需要一些工具。您需要使用某种东西才能对内容进行索引和搜索,并且已使用三种出色的工具为此问题标记了这个问题:。其中每一个都有丰富的教程和示例,可帮助您入门。

您将需要的另一件事是从所有这些不同文件类型读取内容的方法。我建议Apache Tika。这是一个出色的工具包,可以读取您列出的所有格式,并且可以与Lucene很好地配合使用。

您可以在此问题中看到它们一起使用的示例:Tika in Action book examples Lucene StandardAnalyzer does not work

关于apache - 如何开发一个简单的搜索引擎以在本地文件中进行全文搜索,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22838500/

相关文章:

java - Java 中的同步多线程(Apache HTTPClient)

php - apache目录列表而不是执行网站

eclipse - eclipse 中的 Tomcat 生成了一个带有 .war 的 war 文件?扩大

elasticsearch - Elasticsearch-查询具有不同术语的主要和次要属性

java - 使用lucene进行数据库搜索

java - 由 : java. lang.NoClassDefFoundError : Could not initialize class org. elasticsearch.common.lucene.Lucene 引起

elasticsearch - 为什么全局序数是建立在字段数据而不是 doc_values 上的?

node.js - 当我启动 .js 服务器文件时出现错误 : connect ECONNREFUSED into node. js

java - Solr 5.1 : Solr is creating way too many log files

php - apache 抛出 404 - 无法重写规则