我正在使用 sunspot 和 ruby on rails。它工作正常。馈入数据库的内容来自富文本编辑器,因此它确实具有 HTML 标签。我是否需要剥离这些标签并将内容保存在表中的单独字段中。使用它是否会提高搜索引擎的准确性。
最佳答案
剥离标签永远不会伤害;噪音越小越好。
您可以使用 Nokogiri 轻松检索没有标签的文档文本:
require 'nokogiri'
xml = <<EOT
<xml>
<node>This is some text.</node>
<node>This is more text.</node>
</xml>
EOT
doc = Nokogiri::XML(xml)
puts doc.text
>> :!ruby test.rb
>>
>> This is some text.
>> This is more text.
>>
Nokogiri 有合并相邻文本节点的选项,但使用普通的 Ruby 数组和字符串操作也很容易做到。
关于ruby-on-rails - 我是否需要去除标签以改进搜索?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4512078/