Python网络爬虫和 "getting"html源代码

标签 python get web-crawler

所以我的兄弟希望我用 Python(自学)编写一个网络爬虫，我知道 C++、Java 和一点 html。我正在使用 2.7 版并阅读 python 库，但我有一些问题 1. httplib.HTTPConnection 和 request 概念对我来说是新的，我不明白它是下载像 cookie 还是实例这样的 html 脚本。如果你同时做这两件事，你会得到网站页面的来源吗？我需要知道哪些词才能修改页面并返回修改后的页面。

仅作为背景，我需要下载一个页面并将所有 img 替换为我拥有的页面

如果你们能告诉我你对 2.7 和 3.1 的看法，那就太好了

最佳答案

~~使用 Python 2.7，目前有更多的 3rd 方库。~~(编辑:见下文)。

我推荐你使用stdlib模块urllib2，它可以让你轻松地获取网络资源。示例:

import urllib2

response = urllib2.urlopen("http://google.de")
page_source = response.read()

要解析代码，请查看 BeautifulSoup。

顺便说一句:你到底想做什么:

Just for background, I need to download a page and replace any img with ones I have

编辑:现在是 2014 年，大部分重要的库都已被移植，如果可以的话，你绝对应该使用 Python 3。 python-requests是一个非常不错的高级库，比 urllib2 更容易使用。

关于Python网络爬虫和 "getting"html源代码，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/3533528/

上一篇：python - 按顺序抓取 URL

下一篇：python - 为什么 < 比 >= 慢

相关文章：

python - 如何绘制重叠时颜色变深的透明线？

python - NLTK ConditionalFreqDist 到 Pandas 数据帧

javascript - 从 Chrome 扩展发出 HTTP GET 请求

jquery - 在nodeJS中使用爬虫并没有给我任何结果，但是当我在浏览器中尝试相同的代码时，它给出了。我的代码有什么问题吗？

python - 未知命令 : crawl error

elasticsearch - 处理空字段

python - 用德语 Umlaute 对 Pandas 数据框进行排序

python - 我如何知道 Pygame 中的圆和矩形是否被触摸？

jquery ajax 获取示例

android - 从 URL 获取 HTML 源代码