我在 Stack Overflow 上的第一篇文章,所以请保持温和!我即将为客户启动一个新的 Ruby on Rails (3.1) 项目。他们的要求之一是有一个搜索引擎,它将索引大约 2,000 个文档,这些文档是 PDF、Word、Excel 和 HTML 的混合体。
我曾希望使用 think-sphinx 或 Texticle(最流行的是 https://www.ruby-toolbox.com/categories/rails_search.html ),但据我所知:
所以我有两个选择:
您推荐哪种方法?
如果是不同的搜索工具,是哪个?我的要求非常基本,所以我真的很喜欢一个非常容易设置并且有大量文档、示例和教程的要求!
如果是提取,你能推荐一些常见文件类型的提取器,比如 PDF、Word、Excel 和 HTML?
谢谢大家。真的很感谢你的帮助。
最佳答案
好吧,我以前没有做过二进制文件索引,但显然 Solr 支持它,见 Indexing files with SPHINX/ultrasphinx和
http://wiki.apache.org/solr/ExtractingRequestHandler Solr 可用的 gem 不少,Sunspot 似乎很受欢迎 http://outoftime.github.com/sunspot/尽管 Sunspot 似乎没有内置对 Solr Cells 的支持,但似乎有一些工作要做 https://github.com/tomasc/sunspot_cell那里可能有更好的选择,但这应该给你一个很好的起点。
关于ruby-on-rails - 从 Rails 应用程序(Word、PDF、Excel 等)中搜索附件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7739193/