我正在尝试创建一个简单的网络抓取工具,它执行以下操作:
- 前往 Yellowpages.com
- 选择尚未抓取的第一个类别
- 点击尚未抓取的第一个商家
- 抓取企业名称、电话号码和描述
- 将其抓取的数据附加到 .csv 文件(或数据库)中
- 返回步骤 1
我认为 Node.js/jQuery 是最容易实现这样的事情的。 任何人都可以给我指点教程或者为我快速整理一些东西吗?
最佳答案
昨天刚在黑客新闻上读到一篇关于 scraping with NodeJS and Chimera 的文章。同一作者在 Enhanced web scraping with NodeJS 上写了一篇较早的文章.
Chimera 看起来很酷,因为它使用 headless Web 浏览器 (QtWebkit),因此您可以让页面加载使用 JS 加载的任何内容,这是我在工作中构建的抓取工具所需要的。
关于javascript - 如何在 NodeJS 中制作一个简单的网络爬虫?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14142353/