所以我的兄弟希望我用 Python(自学)编写一个网络爬虫,我知道 C++、Java 和一点 html。我正在使用 2.7 版并阅读 python 库,但我有一些问题
1. httplib.HTTPConnection
和 request
概念对我来说是新的,我不明白它是下载像 cookie 还是实例这样的 html 脚本。如果你同时做这两件事,你会得到网站页面的来源吗?我需要知道哪些词才能修改页面并返回修改后的页面。
仅作为背景,我需要下载一个页面并将所有 img 替换为我拥有的页面
如果你们能告诉我你对 2.7 和 3.1 的看法,那就太好了
最佳答案
使用 Python 2.7,目前有更多的 3rd 方库。(编辑:见下文)。
我推荐你使用stdlib模块urllib2
,它可以让你轻松地获取网络资源。
示例:
import urllib2
response = urllib2.urlopen("http://google.de")
page_source = response.read()
要解析代码,请查看 BeautifulSoup
。
顺便说一句:你到底想做什么:
Just for background, I need to download a page and replace any img with ones I have
编辑:现在是 2014 年,大部分重要的库都已被移植,如果可以的话,你绝对应该使用 Python 3。 python-requests
是一个非常不错的高级库,比 urllib2
更容易使用。
关于Python网络爬虫和 "getting"html源代码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3533528/