javascript - 如何将javascript渲染模块集成到scrapy中？

标签 javascript python web-scraping scrapy

我正在开发一个网络抓取程序，但我在使用 scrapy 和 javascript 生成的内容时遇到了问题。我知道 scrapy 不是为进行这种类型的抓取而构建的，但我一直在尝试使用 scrapyjs或 splash完成我需要的。

但是，我无法让这两个模块中的任何一个与 scrapy 一起正常工作。我的问题是，是否有人可以展示使用 scrapyjs 或 splash 呈现 javascript 页面的最小示例？

编辑: 我的平台是 ubuntu，我使用 python。对于 scrapyjs，我只是将源代码放在 scrapy 项目的最上层目录中，我还没有找到任何关于如何使用 splash 的真正指南。我问 splash 的原因是因为它似乎是一个更强大的 javascript 渲染模块，并且在与 scrapjs 相同的对话中被多次提及。

最佳答案

我相信您所要做的就是执行 process_links in your Spider :

def proxy_url(url):
        return "http://localhost:8050/render.html?url=%s&timeout=15&wait=1" % url


def process_links(self,links):
        for link in links:
            link.url = proxy_url(link.url)
        return links

关于javascript - 如何将javascript渲染模块集成到scrapy中？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21564234/

上一篇：javascript - 在 Backbone.js 的 View 中实例化模型是一种反模式吗？

下一篇：javascript - Firefox javascript 变得无响应警告

相关文章：

php - curl 不适用于我的连接的 linkedin 配置文件

python - 如何用Scrapy爬取整个网站？

javascript - 有什么方法可以在javascript中包含条件吗？

javascript - 这是防止用户下载文件时出现 IE8 安全横幅的最佳方法吗？

javascript - 将对象附加到innerHTML并从innerHTML获取该对象

javascript - Jquery tablesorter 插件试图禁用标题排序但它不工作

python - 高斯过程 scikit-learn - 异常

python - 正则表达式字符串替换: omit comma if backref is empty

python - 以奇怪的方式对 Pandas 数据框进行排序和分组

python - 如何使用 BeautifulSoup4 从属性中未指定类或 id 的网站中抓取内容