ruby-on-rails - 我是否需要去除标签以改进搜索?

标签 ruby-on-rails ruby full-text-search solr sunspot

我正在使用 sunspot 和 ruby​​ on rails。它工作正常。馈入数据库的内容来自富文本编辑器,因此它确实具有 HTML 标签。我是否需要剥离这些标签并将内容保存在表中的单独字段中。使用它是否会提高搜索引擎的准确性。

最佳答案

剥离标签永远不会伤害;噪音越小越好。

您可以使用 Nokogiri 轻松检索没有标签的文档文本:

require 'nokogiri'

xml = <<EOT
<xml>
  <node>This is some text.</node>
  <node>This is more text.</node>
</xml>
EOT

doc = Nokogiri::XML(xml)
puts doc.text

>> :!ruby test.rb
>> 
>>   This is some text.
>>   This is more text.
>> 

Nokogiri 有合并相邻文本节点的选项,但使用普通的 Ruby 数组和字符串操作也很容易做到。

关于ruby-on-rails - 我是否需要去除标签以改进搜索?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4512078/

相关文章:

ruby-on-rails - Rails 检测请求是否为 AJAX

ruby-on-rails - 如何找到 24 个月内每月的捐款总额?

ruby-on-rails - 在 Time.now 中覆盖 Ruby 认为的当前时间?

sql - FTS无法正常处理带有点的电子邮件

sql - PSQL : Full text search to ignore or match periods and stop characters

ruby-on-rails - 将 Rails 应用程序调用的方法跟踪到图形中

c - 测试 Paillier 库时出错 : (. text+0x72): undefined reference

mysql - Rails 在 has_many :through relation 中创建数据

ruby - 提交时在开发/QA 服务器上自动化 git pull 过程

c# - C# 中如何检测文件是否不是文本文件