nlp - 爬网

标签 nlp web-crawler information-retrieval text-mining

我想抓取特定的东西。特别是正在发生的事件，如音乐会、电影、艺术画廊开幕等。人们可能会花时间去的任何事情。

如何实现爬虫？

我听说过 Grub (grub.org -> Wikia) 和 Heritix ( http://crawler.archive.org/ )

还有其他人吗？

大家有什么意见？

-杰森

最佳答案

该主题的优秀介绍性文字是 Introduction to Information Retrieval (全文可在线获取)。它有关于 Web crawling 的章节，但也许更重要的是，它为您想要对抓取的文档执行的操作提供了基础。

(来源:stanford.edu)

关于nlp - 爬网，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/728006/

上一篇：ruby-on-rails - ruby on rails 中的嵌套布局

下一篇：.net - 如何在 Silverlight 应用程序中使用非 Silverlight 程序集？

python - 新的斯坦福自然语言处理原生Python包和Core-NLP的Python包装器有什么区别？

text - 用于识别产品发布的 Jape 语法

python - 如何为句子列表创建窗口/ block ？

php - 爬虫从url添加参数到链接

mysql - 包含 IP 地址和网络信息的数据库设计

elasticsearch - 给包含所有查询词的文档更多的分数

python - 如何在生产中使用doc2vec模型？

web-crawler - SEO - 爬虫如何处理域名本身？

python - Scrapy 荣誉 rel=nofollow