ruby-on-rails - 如何从网站/博客中提取文章内容

标签 ruby-on-rails ruby web-scraping nokogiri

我正在尝试编写一个通用函数,用于从博客文章和网站中提取文章文本。

一些我希望能够处理的简化示例:

随机网站:

...
<div class="readAreaBox" id="readAreaBox">
  <h1 itemprop="headline">title</h1>
  <div class="chapter_update_time">time</div>
  <div class="p" id="chapterContent">article text</div>
</div>
...

WordPress的:

<div id="main" class="site-main">
  <div id="primary" class="site-content" role="main">
    <div id="content" class="site-content" role="main">
      <article id="post-1234" class="post-1234 post type-post">
        <div class="entry-meta clear">..</div>
        <h1 class="entry-title">title</h1>
        <div class="entry-content clear">
          article content
          <div id="jp-post-flair" class="sharedaddy">sharing links</div>
        </div>
      </article>
    </div>
  </div>
</div>

博客点:

<div id="content">
  ...
  <div class="main" id="main">
    <div class="post hentry">
      <h3 class="post-title">title</h3>
      <div class="post-header">...</div>
      <div class="post-body">article content</div>
      <div class="post-footer">...</div>
    </div>
  </div>
</div>

我想到了什么(doc 是一个 Nokogiri::HTML::Document):

def fetch_content
  html = ''
  ['#content', '#main', 'article', '.post-body', '.entry-content', '#chapterContent'].each do |css|
    candidate = doc.css(css).to_html
    html = [html, candidate].select(&:present?).sort_by(&:length).first
  end
  self.content = html
end

对于我测试过的示例来说,它工作得相对较好,但它仍然会留下一些共享和导航链接,而且如果页面使用更隐蔽的类名,它也不会工作。

有更好的方法吗?

最佳答案

有一个名为 pismo 的 gem它实现了几个尝试提取文章内容的算法。

有一个java库boilerpipe您可以从 JRuby 中提取网页的文本内容。

关于ruby-on-rails - 如何从网站/博客中提取文章内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29874809/

相关文章:

ruby-on-rails - NoMethodError 运行 cucumber 测试

ruby - 使用 Fog 和 Ruby 生成预签名 URL 以将文件放入 Amazon S3

ruby - 从另一个私有(private)方法中使用 self.xxx() 调用私有(private)方法 xxx,导致错误 "private method ` xxx' called”

python - BeautifulSoup 中的 re.compile 有什么用?

javascript - Puppeteer 错误 错误 : waiting on selector times out

python - 在scrapy中并行运行1个网站的多个蜘蛛?

ios - 如何使用 PromiseKit 处理仅 header 响应?

ruby-on-rails - "Rails Way"的 `update` 是否存在根本缺陷?

ruby-on-rails - paypal gem 多账户 ruby​​ on rails

ruby-on-rails - 嵌套模型形式;如何访问父/根FormBuilder?