我对网站抓取很好奇(即它是如何完成的等等),特别是我想编写一个脚本来执行站点的任务 Hype Machine .
我实际上是一名软件工程本科生(第 4 年),但是我们并没有真正涵盖任何 Web 编程,因此我对 Javascript/RESTFul API/All Things Web 的理解非常有限,因为我们主要关注理论和客户端应用程序。
非常感谢任何帮助或指示。
最佳答案
首先要寻找的是该站点是否已经提供了某种结构化数据,或者您是否需要自己解析 HTML。看起来有一个 RSS feed of latest songs .如果这就是您要寻找的东西,那么从那里开始会很好。
您可以使用脚本语言下载提要并对其进行解析。我使用 python,但如果你愿意,你可以选择不同的脚本语言。这里有一些关于您如何使用的文档 download a url in python和 parse XML in python .
编写下载站点或 RSS 提要的程序时要注意的另一件事是抓取脚本的运行频率。如果您让它持续运行,以便在新数据可用时立即获得新数据,那么您将在站点上加载大量负载,并且很有可能他们会阻止您。尽量不要比您需要的更频繁地运行您的脚本。
关于web-scraping - 如何抓取 Hype Machine 等网站?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3380230/