<分区>
我希望编写一些代码来对网页进行可视化分析,最好使用 Ruby。我的代码需要能够确定 DOM 中所有元素的顶部、左侧、宽度、高度、背景颜色、颜色和字体大小。当然,这些值只有在应用了所有 CSS 后才能计算。所以,我认为 Nokogiri 不适合这份工作。最终,我尝试在类似 VIPS(基于视觉的页面分割)算法中使用此数据,以尝试在下载的新闻文章中找到主要内容。
我考虑过使用 Watir 来驱动 Chrome 或 Firefox,然后提取数据。问题是浏览器不能通过 Watir headless 运行(我认为)。最终,该代码将在数据中心的一系列 Linux 服务器上运行。因此,代码无法轻松访问用于显示浏览器的 X 服务器。
我认为一种解决方案是使用 Watir 并在 Linux 服务器上运行 headless X 服务器。这有点痛苦,但它看起来是我现在的最佳选择。
有没有人有更好的想法?