我需要抓取一个特定的网站来挖掘一些相关信息。 看起来首先我必须搜索该网站以获取相应的 URL,这些 URL 在抓取时将为我提供详细信息。
假设搜索网址是
example.com/city1/search.html?cat=category1&locality=location1&page=1
这意味着,对于位置和页面,可以有 city2、city3 等。类别可以是 Category2、category3 等。
我已经收集了所有的城市、类别、位置和页面,可以递增直到结果不为空。
获取所有 URL 后,我必须从每个 URL 中挖掘出详细信息。我已经看到某些必要的信息可以作为 javascript 的一部分提供。
现在,我已经看到了node.io、jsdom和phantomjs。我也看过yql。 由于我对此很陌生,请根据您的经验建议我,在这种情况下哪一个是理想的。
如果你能举一些例子,那就太棒了。
最佳答案
PhantomJS 可以在您提供的 URL 中运行 javascript,如果 URL 包含 javascript/ajax 内容,则非常有用。 虽然 YQL 不在网站中运行 javascript/ajax,但它很快就能完成一些工作
关于node.js - Node.io、JSDOM 还是 PhantomJs?或者,YQL-data.html.cssselect?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13540108/