html - 如何从 html 文件中提取 "pull"特定数据并处理数据

标签 html ruby html-parsing web-scraping

我是编程新手,我有一个问题,如何从网站页面中提取特定信息,处理数据以检查并查看其是否满足某些参数,以及存储满足参数的页面的 URL。

问题是这样的:

-有一个网站,其中有几篇文章。 -我希望能够列出网站上包含少于 x 个单词的文章的网址列表。

我不需要编码或任何方面的帮助,因为我对此很陌生,这本质上是我学习编程的 self 练习。

我只是想知道如何解决这个问题。我了解 HTML 和最少的 Ruby,这就是我的知识范围。

我只是不知道如何从网页“提取”数据。 :S 我将使用什么来提取 HTML?提取 HTML 后我该如何处理它?将其转换为 ruby ?如果是这样,怎么办?

最佳答案

开头:

require 'open-uri'
require 'nokogiri' 
doc = Nokogiri::HTML(open(URL))
doc.xpath(//a).each {|node| p a.text}

Nokogiri是一个用 Ruby 解析 HTML/XML 文档的库。请查看网页以获取有关如何安装/使用它的更多信息。

关于html - 如何从 html 文件中提取 "pull"特定数据并处理数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5604552/

相关文章:

arrays - 将两个有序数组合并为一个有序数组

ruby - 组合的递归函数

ios - XCODE 中的 JSON 解析不一致(Cocoa 错误 3840)

html - 左右浮动时垂直和水平对齐的元素

javascript - 如何使用 toggleClass 为检测到的特定类更改 css 类

Ruby - FlexMock 反引号方法

c# - Html Agility Pack 在 c# 中保存 html 文件时创建不相关的字符

jquery - 使用 jQuery 解析 HTML

javascript - 导致移动导航无法点击的页面转换

html - 无法对齐 Internet Explorer 的 ul 元素内的中心图像