python - 如何使用抓取

我想知道如何启动一个基于Scrapy的爬虫。我通过 apt-get install 安装了该工具，并尝试运行一个示例:

/usr/share/doc/scrapy/examples/googledir/googledir$ scrapy list
directory.google.com

/usr/share/doc/scrapy/examples/googledir/googledir$ scrapy crawl

我从 spiders/google_directory.py 破解了代码，但它似乎没有执行，因为我没有看到我插入的任何打印件。我阅读了他们的文档，但没有发现与此相关的内容；你有什么想法吗？

此外，如果您认为我应该使用其他工具来抓取网站，请告诉我。我没有使用 Python 工具的经验，但 Python 是必须的。

谢谢!

最佳答案

您在抓取命令中遗漏了蜘蛛名称。使用:

$ scrapy crawl directory.google.com

此外，我建议您将示例项目复制到您的家中，而不是在 /usr/share/doc/scrapy/examples/ 目录中工作，这样您就可以修改它并使用它:

$ cp -r /usr/share/doc/scrapy/examples/googledir ~
$ cd ~/googledir
$ scrapy crawl directory.google.com

关于python - 如何使用抓取，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/3773035/

上一篇：python - 您如何从列表中选择一个随机元素并将其删除？

下一篇：python - Numpy 矩阵运算

相关文章：

java - 为我的 jar 文件提供更多内存

python - Scrapy 蜘蛛不跟踪链接和错误

python - 从 python 劫持终端 stdin

python - 优雅而高效的方式按原样保留日期值，而不会出现 OOB 错误

html - Wordpress 与 html 页面 SEO 视角

java - 网络爬虫将访问过的 url 存储在文件中

python - 如何向蜘蛛提供在蜘蛛内爬行的链接？

python - 如何 scrapy 处理 dns 查找失败

python - 在这种情况下，全局变量的范围是什么？

python - 对列表进行排序并获取最常用的单词