html - ruby 中网页的可视化分析

标签 html ruby dom nokogiri watir

<分区>

我希望编写一些代码来对网页进行可视化分析,最好使用 Ruby。我的代码需要能够确定 DOM 中所有元素的顶部、左侧、宽度、高度、背景颜色、颜色和字体大小。当然,这些值只有在应用了所有 CSS 后才能计算。所以,我认为 Nokogiri 不适合这份工作。最终,我尝试在类似 VIPS(基于视觉的页面分割)算法中使用此数据,以尝试在下载的新闻文章中找到主要内容。

我考虑过使用 Watir 来驱动 Chrome 或 Firefox,然后提取数据。问题是浏览器不能通过 Watir headless 运行(我认为)。最终,该代码将在数据中心的一系列 Linux 服务器上运行。因此,代码无法轻松访问用于显示浏览器的 X 服务器。

我认为一种解决方案是使用 Watir 并在 Linux 服务器上运行 headless X 服务器。这有点痛苦,但它看起来是我现在的最佳选择。

有没有人有更好的想法?

最佳答案

您当然可以使用 Selenium headless 运行浏览器和 Xvfb .我过去用这种组合做过很多 headless 抓取。

关于html - ruby 中网页的可视化分析,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4618478/

相关文章:

javascript - 这个 JavaScript 有什么作用吗?

html - 白色框出现在我的导航栏顶部

ruby-on-rails - 在 Ruby on Rails 中显示类别文章和标签

javascript - 如何获取dom元素的代码行号?

javascript - 如何在 Chrome 扩展程序或控制台命令中提取 JavaScript 源代码?

html - 容器不会延伸到页面底部

javascript - 单击元素并编辑内容(如文本区域)

用于 Mathematica 嵌套函数的 Ruby Eqv?

ruby - 适合 Ruby 程序员的 RPG IV 书籍?

javascript - 简单的 JavaScript DOM 操作