python - Scrapy 与 Nutch

标签 python solr web-scraping scrapy web-crawler

<分区>

我计划在我目前正在开发的应用程序中使用网络爬虫。我对 Nutch 进行了一些研究,并使用它进行了一些初步测试。但后来我遇到了 scrapy。但是当我做了一些初步研究并浏览了有关 scrapy 的文档时,我发现它只能捕获结构化数据(您必须提供要从中捕获数据的 div 名称)。我正在开发的应用程序的后端是基于 Python 的,我知道 scrapy 是基于 Python 的,有些人认为 scrapy 比 Nutch 更好。

我的要求是从超过 1000 个不同的网页中捕获数据,并在该信息中搜索相关关键字。scrapy 有什么方法可以满足相同的要求。

1)如果是,您能否指出一些有关如何完成的示例?

2)或者Nutch+Solr最适合我的要求

最佳答案

Scrapy 将在您的情况下完美运行。

你不需要给 div 命名——你可以得到任何你想要的:

Scrapy comes with its own mechanism for extracting data. They’re called XPath selectors (or just “selectors”, for short) because they “select” certain parts of the HTML document specified by XPath expressions.

另外,您可以使用 BeautifulSouplxml 从页面内容中提取数据。

此外,scrapy 是基于 twisted 的,完全异步且快速。

SO 上有很多 scrapy 蜘蛛的例子 - 只需浏览 标签问题。如果您有更具体的问题 - 只管提问。

希望对您有所帮助。

关于python - Scrapy 与 Nutch,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17199457/

相关文章:

python - cdef extern from ... 诺吉尔

python解码fernet key

elasticsearch - 使用其他搜索对弹性结果进行后处理(从Solr迁移)

html - 使用 Ruby 中的 Nokogiri 抓取特定标题

python - 网站抓取

python - MNIST、torchvision 中的输出和广播形状不匹配

python - 添加多个元素到字典中的列表

java - Solr文档中动态键值对的存储和搜索

Java Ivy/Maven 为 LucidWorks auto-phrase-tokenizer 构建依赖解析

python - 如何使用selenium python从自动完成框中提取数据