screen-scraping - 使用屏幕抓取器提取数据

标签 screen-scraping html-content-extraction

<分区>

我正在寻找屏幕抓取器的推荐,我需要从某些网站提取“联系我们”信息。

有什么想法可以让我获得一个好的(pref 免费)screenscarper?

最佳答案

自己写——这并不难。如果您不熟悉编程或无法选择编程语言:使用 Python 库支持进行抓取。

至于如何解决这个问题,有两种流行的技术:使用 regular expressions , 它们最适合ad-hoc 屏幕抓取。如果你的目标网站结构良好——阅读:不是临时的——然后使用一个允许你使用 DOM 的框架。 .

导航和提取

这是编写 spider 的两个阶段.您的蜘蛛需要浏览网站以访问不同的页面,并且需要提取感兴趣的信息。这两个阶段都可以由 DOM 或 RE 驱动

p.s.,因为您的名字表示 .NET——我应该提到我已经用 C-Sharp 编写了爬虫——这是轻而易举的事。

关于screen-scraping - 使用屏幕抓取器提取数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2081500/

相关文章:

python - 程序化表单提交

screen-scraping - 类似于 Mathematics Genealogy Project 的网站

python - 抓取网页的 "preview"- Python

Mysql 使用 SUBSTRING 从 LONG_TEXT 中提取 URL

perl - 编写可维护的网络抓取应用程序的最佳方法是什么?

c# - Selenium 点击坐标不点击预期的地方

python - 在 Scrapy 中使用 start_request 和使用 cookie 在网站上工作的正确方法是什么

excel - 在Excel VBA中使用MSXML2.XMLHTTP从网站中提取大量文本数据

java - 如何以编程方式获取 contentPlaceHolder 的代码

.net - Http Agility Pack - 访问 sibling ?