screen-scraping - 使用屏幕抓取器提取数据

<分区>

关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。

要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的，因为它们往往会吸引自以为是的答案和垃圾邮件。相反，describe the problem以及迄今为止为解决该问题所做的工作。

关闭 9 年前。

我正在寻找屏幕抓取器的推荐，我需要从某些网站提取“联系我们”信息。

有什么想法可以让我获得一个好的(pref 免费)screenscarper？

最佳答案

自己写——这并不难。如果您不熟悉编程或无法选择编程语言:使用 Python 库支持进行抓取。

至于如何解决这个问题，有两种流行的技术:使用 regular expressions , 它们最适合ad-hoc 屏幕抓取。如果你的目标网站结构良好——阅读:不是临时的——然后使用一个允许你使用 DOM 的框架。 .

导航和提取

这是编写 spider 的两个阶段.您的蜘蛛需要浏览网站以访问不同的页面，并且需要提取感兴趣的信息。这两个阶段都可以由 DOM 或 RE 驱动

p.s.，因为您的名字表示 .NET——我应该提到我已经用 C-Sharp 编写了爬虫——这是轻而易举的事。

关于screen-scraping - 使用屏幕抓取器提取数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/2081500/

相关文章：

python - 程序化表单提交