Python网络爬虫和 "getting"html源代码

标签 python get web-crawler

所以我的兄弟希望我用 Python(自学)编写一个网络爬虫,我知道 C++、Java 和一点 html。我正在使用 2.7 版并阅读 python 库,但我有一些问题 1. httplib.HTTPConnectionrequest 概念对我来说是新的,我不明白它是下载像 cookie 还是实例这样的 html 脚本。如果你同时做这两件事,你会得到网站页面的来源吗?我需要知道哪些词才能修改页面并返回修改后的页面。

仅作为背景,我需要下载一个页面并将所有 img 替换为我拥有的页面

如果你们能告诉我你对 2.7 和 3.1 的看法,那就太好了

最佳答案

使用 Python 2.7,目前有更多的 3rd 方库。(编辑:见下文)。

我推荐你使用stdlib模块urllib2,它可以让你轻松地获取网络资源。 示例:

import urllib2

response = urllib2.urlopen("http://google.de")
page_source = response.read()

要解析代码,请查看 BeautifulSoup

顺便说一句:你到底想做什么:

Just for background, I need to download a page and replace any img with ones I have

编辑:现在是 2014 年,大部分重要的库都已被移植,如果可以的话,你绝对应该使用 Python 3。 python-requests是一个非常不错的高级库,比 urllib2 更容易使用。

关于Python网络爬虫和 "getting"html源代码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3533528/

相关文章:

python - 如何绘制重叠时颜色变深的透明线?

python - NLTK ConditionalFreqDist 到 Pandas 数据帧

javascript - 从 Chrome 扩展发出 HTTP GET 请求

jquery - 在nodeJS中使用爬虫并没有给我任何结果,但是当我在浏览器中尝试相同的代码时,它给出了。我的代码有什么问题吗?

python - 未知命令 : crawl error

elasticsearch - 处理空字段

python - 用德语 Umlaute 对 Pandas 数据框进行排序

python - 我如何知道 Pygame 中的圆和矩形是否被触摸?

jquery ajax 获取示例

android - 从 URL 获取 HTML 源代码