我正在开发一个网络抓取程序,但我在使用 scrapy 和 javascript 生成的内容时遇到了问题。我知道 scrapy 不是为进行这种类型的抓取而构建的,但我一直在尝试使用 scrapyjs或 splash完成我需要的。
但是,我无法让这两个模块中的任何一个与 scrapy 一起正常工作。我的问题是,是否有人可以展示使用 scrapyjs 或 splash 呈现 javascript 页面的最小示例?
编辑: 我的平台是 ubuntu,我使用 python。对于 scrapyjs,我只是将源代码放在 scrapy 项目的最上层目录中,我还没有找到任何关于如何使用 splash 的真正指南。我问 splash 的原因是因为它似乎是一个更强大的 javascript 渲染模块,并且在与 scrapjs 相同的对话中被多次提及。
最佳答案
我相信您所要做的就是执行 process_links in your Spider :
def proxy_url(url):
return "http://localhost:8050/render.html?url=%s&timeout=15&wait=1" % url
def process_links(self,links):
for link in links:
link.url = proxy_url(link.url)
return links
关于javascript - 如何将javascript渲染模块集成到scrapy中?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21564234/