node.js - 使用node.io抓取时如何添加像Tor这样的代理?

标签 node.js web-scraping node.io

我正在使用 node.io 构建一个网络抓取工具,但在寻找实现方法的过程中,我提出了很多要求,但该网站阻止了我。我不知道如何添加代理,例如使用 Tor 向该网站发出请求。

最佳答案

关注这篇文章http://pkmishra.github.io/blog/2013/03/18/how-to-run-scrapy-with-TOR-and-multiple-browser-agents-part-1-mac/

我安装了tor和polipo。 Polipo 连接到 Tor 和 Node.IO 将使用 polipo 提供的 http 代理。 看起来比我想象的简单。 并为scraper设置代理

    var scrap = new Scraper({
    start: 0,
    limit: 5,
    count: null,
    max: config.max || 0,
    debug: true,
    wait: 3,
    proxy: 'http://127.0.0.1:8123'
});

效果很好。

关于node.js - 使用node.io抓取时如何添加像Tor这样的代理?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19221903/

相关文章:

node.js - 使用 Sequelize 进行数据库迁移后,列名不同

javascript - 语法错误 : Unexpected Token, discord bot 编码

python - Scrapy:将参数传递给 cmdline.execute()

node.js - 在 node.io 中实现 async.parallel 的问题

node.js - Amazon EC2 Linux 上的 NPM 安装错误 MEAN.js 示例应用程序?

javascript - Mongoose 在通过 Browserify 加载时没有连接方法

java - Jsoup Java For 循环和元素

python - 网络爬虫脚本在两台不同的机器上产生不同的结果

node.js - node.io : when the job is done, 再做一次