这个问题在这里已经有了答案:
extract single string from HTML using Ruby/Mechanize (and Nokogiri)
(2 个回答)
7年前关闭。
使用 Mechanize,我想在这个网站上抓取信息 => http://www.africanbookscollective.com
这是我想收集的信息:
在这个类别下,我想要:
我发现这个 url =>
http://www.africanbookscollective.com/browse/african-literature/fiction
给我我想要的信息。
这是我当前的代码:
require 'awesome_print'
require 'rubygems'
require 'mechanize'
agent = Mechanize.new
page = agent.get('http://www.africanbookscollective.com/browse/african-literature/fiction')
a = page.links.each do |link|
puts link.text
end
ap a
这是我第一次使用 Mechanize ,因此我不确定它与 Nokogiri 有何不同。我在这种特殊情况下使用它的主要原因是因为我需要提取 38 页的信息( 标记为 Fiction 的书籍的完整列表)。
问题:
任何人都可以帮助我想出一种新的方法来解决这个问题吗?我真的很感激反馈。
PS:这是一张可能会散发出更多光芒的图像
最佳答案
您可以使用 scrape4me.com 获取原始输出以在您的项目中进行进一步处理( Mechanize ) 不知道 Mechanize ,但也许这会有所帮助,祝您好运
关于ruby - 使用 Mechanize 抓取/提取数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20872392/