带有 MySQL 数据库的 Python 网络爬虫

标签 python mysql sql web-crawler web-scraping

我想创建或找到一个用 Python 编写的开源网络爬虫(蜘蛛/机器人)。它必须找到并跟踪链接、收集元标记和元描述、网页标题和网页 url,并将所有数据放入 MySQL 数据库。

有谁知道任何可以帮助我的开源脚本?另外,如果有人可以给我一些关于我应该做什么的指示,那么我们非常欢迎他们。

最佳答案

是的,我知道,

图书馆

https://github.com/djay/transmogrify.webcrawler

http://code.google.com/p/harvestman-crawler/

http://code.activestate.com/pypm/orchid/

开源网络爬虫

http://scrapy.org/

教程

http://www.example-code.com/python/pythonspider.asp

PS 我不知道他们是否使用 mysql 因为通常 python 使用 sqlit 或 postgre sql 所以如果你想要你可以使用我给你的库并导入 python-mysql 模块并执行它:D

http://sourceforge.net/projects/mysql-python/

关于带有 MySQL 数据库的 Python 网络爬虫,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7017216/

相关文章:

python - Pandas Groupby Dates,然后是 Group 的 Cumprod?

python - Python 中的自适应直方图均衡化

php - 带有 xampp 服务器的 Android 应用程序

mysql - 根据mysql的另一个表(4个表)值更新表

mysql高级按查询排序

python - 如何从 PySpark 中的字符串获取列表

python - 为 iOS 发送 9000/s 推送通知

php - 填充 onchange 事件的第二个下拉列表

带有 LEFT JOIN 的 MySQL 聚合函数

sql - 每月重置的运行总计