javascript - 如何在 NodeJS 中制作一个简单的网络爬虫?

标签 javascript jquery node.js

我正在尝试创建一个简单的网络抓取工具,它执行以下操作:

  1. 前往 Yellowpages.com
  2. 选择尚未抓取的第一个类别
  3. 点击尚未抓取的第一个商家
  4. 抓取企业名称、电话号码和描述
  5. 将其抓取的数据附加到 .csv 文件(或数据库)中
  6. 返回步骤 1

我认为 Node.js/jQuery 是最容易实现这样的事情的。 任何人都可以给我指点教程或者为我快速整理一些东西吗?

最佳答案

昨天刚在黑客新闻上读到一篇关于 scraping with NodeJS and Chimera 的文章。同一作者在 Enhanced web scraping with NodeJS 上写了一篇较早的文章.

Chimera 看起来很酷,因为它使用 headless Web 浏览器 (QtWebkit),因此您可以让页面加载使用 JS 加载的任何内容,这是我在工作中构建的抓取工具所需要的。

关于javascript - 如何在 NodeJS 中制作一个简单的网络爬虫?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14142353/

相关文章:

javascript - 我们可以通过在控制台中编写循环来多次提交表单吗?

javascript - 使用 ajax 请求最快的方法是什么?

javascript - 有什么方法可以将参数传递给 Express Nodejs 中的路由器吗?

javascript - 我如何包含数组?

javascript - Nativescript UI-Builder 和数据绑定(bind)

javascript - JS : Why I can not send a value from onclick?

javascript - 如何在javascript函数中传递php值

javascript - 检查是否在 highcharts 中选择了所有图例项?

javascript - 尝试将 POST 从 JavaScript 传递到 PHP

json - 如何在 Strongloop 前端编写 GET 查询