nlp - 爬网

标签 nlp web-crawler information-retrieval text-mining

我想抓取特定的东西。特别是正在发生的事件,如音乐会、电影、艺术画廊开幕等。人们可能会花时间去的任何事情。

如何实现爬虫?

我听说过 Grub (grub.org -> Wikia) 和 Heritix ( http://crawler.archive.org/ )

还有其他人吗?

大家有什么意见?

-杰森

最佳答案

该主题的优秀介绍性文字是 Introduction to Information Retrieval (全文可在线获取)。它有关于 Web crawling 的章节,但也许更重要的是,它为您想要对抓取的文档执行的操作提供了基础。

Introduction to Information Retrieval
(来源:stanford.edu)

关于nlp - 爬网,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/728006/

相关文章:

information-retrieval - 以下 JAPE 规则是否会覆盖现有注释或添加额外注释?

python - 新的斯坦福自然语言处理原生Python包和Core-NLP的Python包装器有什么区别?

text - 用于识别产品发布的 Jape 语法

python - 如何为句子列表创建窗口/ block ?

php - 爬虫从url添加参数到链接

mysql - 包含 IP 地址和网络信息的数据库设计

elasticsearch - 给包含所有查询词的文档更多的分数

python - 如何在生产中使用doc2vec模型?

web-crawler - SEO - 爬虫如何处理域名本身?

python - Scrapy 荣誉 rel=nofollow