我想创建或找到一个用 Python 编写的开源网络爬虫(蜘蛛/机器人)。它必须找到并跟踪链接、收集元标记和元描述、网页标题和网页 url,并将所有数据放入 MySQL 数据库。
有谁知道任何可以帮助我的开源脚本?另外,如果有人可以给我一些关于我应该做什么的指示,那么我们非常欢迎他们。
最佳答案
是的,我知道,
图书馆
https://github.com/djay/transmogrify.webcrawler
http://code.google.com/p/harvestman-crawler/
http://code.activestate.com/pypm/orchid/
开源网络爬虫
教程
http://www.example-code.com/python/pythonspider.asp
PS 我不知道他们是否使用 mysql 因为通常 python 使用 sqlit 或 postgre sql 所以如果你想要你可以使用我给你的库并导入 python-mysql 模块并执行它:D
关于带有 MySQL 数据库的 Python 网络爬虫,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7017216/