web-scraping - 如何抓取 Hype Machine 等网站?

标签 web-scraping screen-scraping

我对网站抓取很好奇(即它是如何完成的等等),特别是我想编写一个脚本来执行站点的任务 Hype Machine .
我实际上是一名软件工程本科生(第 4 年),但是我们并没有真正涵盖任何 Web 编程,因此我对 Javascript/RESTFul API/All Things Web 的理解非常有限,因为我们主要关注理论和客户端应用程序。
非常感谢任何帮助或指示。

最佳答案

首先要寻找的是该站点是否已经提供了某种结构化数据,或者您是否需要自己解析 HTML。看起来有一个 RSS feed of latest songs .如果这就是您要寻找的东西,那么从那里开始会很好。

您可以使用脚本语言下载提要并对其进行解析。我使用 python,但如果你愿意,你可以选择不同的脚本语言。这里有一些关于您如何使用的文档 download a url in pythonparse XML in python .

编写下载站点或 RSS 提要的程序时要注意的另一件事是抓取脚本的运行频率。如果您让它持续运行,以便在新数据可用时立即获得新数据,那么您将在站点上加载大量负载,并且很有可能他们会阻止您。尽量不要比您需要的更频繁地运行您的脚本。

关于web-scraping - 如何抓取 Hype Machine 等网站?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3380230/

相关文章:

python - 如何在python的scrapy中删除字符串的特定部分

c# - 无法单击具有特定属性的按钮

java - http 在页面加载完成之前获取 html

javascript - 如何创建直接指向动态图像的 URL 链接,特别是对于本示例?

c# - 如何检测 WatiN 中的 Javascript 弹出通知?

javascript - 使用 PyQt 输出和响应 Javascript

java - 无法抓取标题

python - 如何使用python迭代scrapy中的节点

c++ - libcurl示例代码出现错误

python - BeautifulSoup find_all() 不返回任何数据