ruby-on-rails - 从 Rails 应用程序(Word、PDF、Excel 等)中搜索附件

我在 Stack Overflow 上的第一篇文章，所以请保持温和!我即将为客户启动一个新的 Ruby on Rails (3.1) 项目。他们的要求之一是有一个搜索引擎，它将索引大约 2,000 个文档，这些文档是 PDF、Word、Excel 和 HTML 的混合体。

我曾希望使用 think-sphinx 或 Texticle(最流行的是 https://www.ruby-toolbox.com/categories/rails_search.html )，但据我所知:

Texticle 需要 PostgreSQL。我在 MySQL 上。

think-sphinx 不会索引文件系统上的文件。

即使我将附件保存到数据库中，thinking-sphinx 仍然无法工作，因为它需要纯文本(根据 http://groups.google.com/group/thinking-sphinx/browse_thread/thread/69cdc1c8e1c096ff)

所以我有两个选择:

选择不同的搜索工具

尝试将附件的纯文本版本提取到数据库中，以便thinking-sphinx 阅读

您推荐哪种方法？

如果是不同的搜索工具，是哪个？我的要求非常基本，所以我真的很喜欢一个非常容易设置并且有大量文档、示例和教程的要求!

如果是提取，你能推荐一些常见文件类型的提取器，比如 PDF、Word、Excel 和 HTML？

谢谢大家。真的很感谢你的帮助。

最佳答案

好吧，我以前没有做过二进制文件索引，但显然 Solr 支持它，见 Indexing files with SPHINX/ultrasphinx和
http://wiki.apache.org/solr/ExtractingRequestHandler Solr 可用的 gem 不少，Sunspot 似乎很受欢迎 http://outoftime.github.com/sunspot/尽管 Sunspot 似乎没有内置对 Solr Cells 的支持，但似乎有一些工作要做 https://github.com/tomasc/sunspot_cell那里可能有更好的选择，但这应该给你一个很好的起点。

关于ruby-on-rails - 从 Rails 应用程序(Word、PDF、Excel 等)中搜索附件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/7739193/

ruby-on-rails - 从 Rails 应用程序(Word、PDF、Excel 等)中搜索附件

上一篇：webpack - 如何以编程方式重新启动 webpack 开发服务器(关闭方法是否刚刚被破坏？)

下一篇：.net - 对数据契约(Contract)实现限制