ruby-on-rails - 从 Rails 应用程序(Word、PDF、Excel 等)中搜索附件

标签 ruby-on-rails search attachment apache-tika

我在 Stack Overflow 上的第一篇文章,所以请保持温和!我即将为客户启动一个新的 Ruby on Rails (3.1) 项目。他们的要求之一是有一个搜索引擎,它将索引大约 2,000 个文档,这些文档是 PDF、Word、Excel 和 HTML 的混合体。

我曾希望使用 think-sphinx 或 Texticle(最流行的是 https://www.ruby-toolbox.com/categories/rails_search.html ),但据我所知:

  • Texticle 需要 PostgreSQL。我在 MySQL 上。
  • think-sphinx 不会索引文件系统上的文件。
  • 即使我将附件保存到数据库中,thinking-sphinx 仍然无法工作,因为它需要纯文本(根据 http://groups.google.com/group/thinking-sphinx/browse_thread/thread/69cdc1c8e1c096ff)

  • 所以我有两个选择:
  • 选择不同的搜索工具
  • 尝试将附件的纯文本版本提取到数据库中,以便thinking-sphinx 阅读

  • 您推荐哪种方法?

    如果是不同的搜索工具,是哪个?我的要求非常基本,所以我真的很喜欢一个非常容易设置并且有大量文档、示例和教程的要求!

    如果是提取,你能推荐一些常见文件类型的提取器,比如 PDF、Word、Excel 和 HTML?

    谢谢大家。真的很感谢你的帮助。

    最佳答案

    好吧,我以前没有做过二进制文件索引,但显然 Solr 支持它,见 Indexing files with SPHINX/ultrasphinx
    http://wiki.apache.org/solr/ExtractingRequestHandler Solr 可用的 gem 不少,Sunspot 似乎很受欢迎 http://outoftime.github.com/sunspot/尽管 Sunspot 似乎没有内置对 Solr Cells 的支持,但似乎有一些工作要做 https://github.com/tomasc/sunspot_cell那里可能有更好的选择,但这应该给你一个很好的起点。

    关于ruby-on-rails - 从 Rails 应用程序(Word、PDF、Excel 等)中搜索附件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7739193/

    相关文章:

    ruby-on-rails - 根据传递的参数采取不同的操作 : best pattern to choose

    ruby-on-rails - 如何重定向到 "nothing"

    django rest framework 搜索过滤所有字段

    python - 从 .msg 文件中提取 .xlsx 附件

    ruby-on-rails - 如何在不引发错误的情况下将 sidekiq 任务/作业标记为重试?

    ruby-on-rails - Heroku, bundler 因缺少依赖项而失败

    c# - Lucene - 搜索数值字段

    algorithm - 如果条件为真,则返回数组索引的 O(n) 算法

    python - 发送包含嵌入图像的多部分 html 电子邮件

    javascript - AJAX无法加载URL