list - 是否有已知的网络爬虫列表？

标签 list documentation web-crawler bots

关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。

想改进这个问题？将问题更新为 on-topic对于堆栈溢出。

4年前关闭。

Improve this question

我正在尝试获取 Web 服务器上某些文件的准确下载编号。我查看了用户代理，其中一些显然是机器人或网络爬虫，但对于很多人我不确定，它们可能是也可能不是网络爬虫，它们会导致大量下载，所以了解这些对我来说很重要。

是否有一些已知的网络爬虫列表以及一些文档，如用户代理、IP、行为等？

我对官方的不感兴趣，比如谷歌的、雅虎的或微软的。这些人通常表现良好且自我认同。

最佳答案

我正在使用 http://www.user-agents.org/通常作为引用，希望对您有所帮助。

你也可以试试http://www.robotstxt.org/db.html或 http://www.botsvsbrowsers.com .

关于list - 是否有已知的网络爬虫列表？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/1733599/

上一篇：卸载完成时打开网页

下一篇：jython - 如何在脚本内部将 jar 动态添加到 jython？

相关文章：

python - 将文件数据转换为嵌套列表

jquery - googlebot 是否会抓取 jQuery $.get() 调用中的网址并且可以阻止吗？

Python爬虫验证图片

python - 删除列表中的元素，直到到达 Python 中的第一个空元素

python - python Counter中的正则表达式匹配项

c# - Linq 选择两个列表中都存在的项目

Python语言API

javascript - JsDoc 命名空间

c++ - 多线程环境下的文档锁定

python - 架构 python 问题