python - 在 python 中,我需要将 html 页面源的一个元素存储为字符串。我怎样才能做到这一点?

标签 python html parsing

到目前为止,我已经成功编写了一些应该打印页面源代码的代码。问题是,事实并非如此。我在另一个网站上尝试过,它打印得很好,所以我在页面“http://www.whitepages.com/carrier_lookup?carrier=other&number_0=2165138899&response=1”上使用了wget,它应该为我下载该页面。它给出了“ERROR 403: Forbidden. ”,所以我现在不太确定如何访问 html。

问题的第二部分是,当我设法下载 html 并将其保存为字符串时,我需要将搜索找到的载体保存为不同的字符串。这可以通过源代码中 [div class="carrier_result"] 行下的行进行访问。在上一句中,我用方括号替换了 < 和 >,因为 sourceforge 不允许我发布 html。

到目前为止我的代码是: http://pastebin.com/u4HUv3Rj

感谢所有帮助我的人。

最佳答案

有关 HTTP 403 结果含义以及如何处理它的说明,请参阅 here .

我不知道“我需要将搜索到的载体保存为不同的字符串”可能意味着什么——我什至无法将其解析为英语句子,也不知道“下面的行”是什么线”的意思是其中之一。请改写(如果英语不是你的母语,我可以尝试摸索意大利语、法语、西类牙语、德语或拉丁语——概率会降低,并且不能保证成功,但它不会比你当前的语言更糟糕)措辞;-)。

关于python - 在 python 中,我需要将 html 页面源的一个元素存储为字符串。我怎样才能做到这一点?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2346154/

相关文章:

javascript - Mobile Safari、jQuery 和绑定(bind)到 future 的 DOM 元素

javascript - 如何在 CSS/Javascript 中制作像素化的非直线边框?

Python-创建一个Class-x对象没有属性 'split'

parsing - 在 Idris 中使用类型谓词生成运行时证明

python - 使用 lxml 解析 xml

python - 如何在python中打开中文名称的文件

python - 无法使用 BeautifulSoup 从标签中提取文本

jquery - Bootstrap 3.0 导航下拉菜单不起作用?

c++ - 递归给定文法

python - 从 Celery 中的 taskset_id 检索 GroupResult?