我计划在我目前正在开发的应用程序中使用网络爬虫。我对 Nutch 进行了一些研究,并使用它进行了一些初步测试。但后来我遇到了 scrapy。但是当我做了一些初步研究并浏览了有关 scrapy 的文档时,我发现它只能捕获结构化数据(您必须提供要从中捕获数据的 div 名称)。我正在开发的应用程序的后端是基于 Python 的,我知道 scrapy 是基于 Python 的,有些人认为 scrapy 比 Nutch 更好。
我的要求是从超过 1000 个不同的网页中捕获数据,并在该信息中搜索相关关键字。scrapy 有什么方法可以满足相同的要求。
1)如果是,您能否指出一些有关如何完成的示例?
2)或者Nutch+Solr最适合我的要求
Scrapy
将在您的情况下完美运行。
你不需要给 div 命名——你可以得到任何你想要的:
Scrapy comes with its own mechanism for extracting data. They’re
called XPath selectors (or just “selectors”, for short) because they
“select” certain parts of the HTML document specified by XPath
expressions.
另外,您可以使用 BeautifulSoup
和 lxml
从页面内容中提取数据。
此外,scrapy
是基于 twisted 的,完全异步且快速。
SO 上有很多 scrapy 蜘蛛的例子 - 只需浏览 scrapy标签问题。如果您有更具体的问题 - 只管提问。
希望对您有所帮助。