python - pubDate RSS 使用 Beautifulsoup/Python 解析怪异

标签 python beautifulsoup

我正在尝试使用 Beautifulsoup 解析 RSS/Podcast 提要并且一切正常,除了我似乎无法解析“pubDate”字段。

data = urllib2.urlopen("http://www.democracynow.org/podcast.xml")
dom = BeautifulStoneSoup(data, fromEncoding='utf-8')
items = dom.findAll('item');

for item in items:
    title = item.find('title').string.strip()
    pubDate = item.find('pubDate').string.strip()

标题得到了很好的解析,但是当它到达 pubDate 时,它​​说:

追溯(最近的调用最后): 文件“”,第 2 行,位于 AttributeError: 'NoneType' 对象没有属性 'string'

但是,当我下载 XML 文件的副本并将“pubDate”重命名为其他名称,然后再次解析它时,它似乎起作用了。 pubDate 是 Python 中的保留变量还是什么?

谢谢,

最佳答案

它适用于 item.find('pubdate').string.strip()。 你为什么不使用 feedparser

关于python - pubDate RSS 使用 Beautifulsoup/Python 解析怪异,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2168516/

相关文章:

python - 如何打印 BeautifulSoup 收集的数据?

python - 无法在python中使用BeautifulSoup提取whatsapp号

Python:为什么这里的进程之间共享多进程锁?

python - 语言 worker 如何使用Python在Azure函数中工作?

python - 泰坦尼克号管道中的 ValueError

Python 和 BS4 |获取所有具有特定文本内容的表格数据

python - 如何从 html 源代码中具有相同属性集和相同层次结构的 2 个元素中抓取单个元素(使用 python 的漂亮汤)

python - 对二维 numpy 数组执行分组运算

python - 将不同函数生成的值写入单个文件中

python - 抓取谷歌财经(BeautifulSoup)