python - 使用 etree 从文件中解析 xml 在读取字符串时有效,但在读取文件时则无效

标签 python xml xml-parsing xml.etree

我对 Python 和 SO 来说是一个相对新手。我有一个 xml 文件,需要从中提取信息。我已经为此苦苦挣扎了好几天,但我想我终于找到了可以正确提取信息的东西。现在我在获得正确的输出时遇到了麻烦。这是我的代码:

from xml import etree
node = etree.fromstring('<dataObject><identifier>5e1882d882ec530069d6d29e28944396</identifier><description>This is a paragraph about a shark.</description></dataObject>')
identifier = node.findtext('identifier')
description = node.findtext('description')
print identifier, description

我得到的结果是“5e1882d882ec530069d6d29e28944396这是一段关于鲨鱼的段落。”,这就是我想要的。

但是,我真正需要的是能够从文件而不是字符串中读取。所以我尝试这段代码:

from xml import etree
node = etree.parse('test3.xml')
identifier = node.findtext('identifier')
description = node.findtext('description')
print identifier, description

现在我的结果是“无无”。我有一种感觉,要么文件输入不正确,要么输出有问题。这是test3.xml的内容

<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<response xmlns="http://www.eol.org/transfer/content/0.3" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:dwc="http://rs.tdwg.org/dwc/dwcore/" xmlns:dcterms="http://purl.org/dc/terms/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:geo="http://www.w3.org/2003/01/geo/wgs84_pos#" xmlns:dwct="http://rs.tdwg.org/dwc/terms/" xsi:schemaLocation="http://www.eol.org/transfer/content/0.3 http://services.eol.org/schema/content_0_3.xsd">
  <identifier>5e1882d822ec530069d6d29e28944369</identifier>
  <description>This is a paragraph about a shark.</description>

最佳答案

您的 XML 文件使用默认命名空间。您需要使用正确的命名空间来限定您的搜索:

identifier = node.findtext('{http://www.eol.org/transfer/content/0.3}identifier')

让 ElementTree 匹配正确的元素。

您还可以为 .find()findall()iterfind() 方法提供显式命名空间字典。这没有很好的记录:

namespaces = {'eol': 'http://www.eol.org/transfer/content/0.3'} # add more as needed

root.findall('eol:identifier', namespaces=namespaces)

前缀在您传入的namespaces参数中查找。这意味着您可以使用任何您喜欢的命名空间前缀; API 分离出 eol: 部分,在 namespaces 字典中查找相应的命名空间 URL,然后更改搜索以查找 XPath 表达式 {http://www.eol.org/transfer/content/0.3}改为标识符

如果可以切换到lxml library事情变得更好了;该库支持相同的 ElementTree API,但会在元素的 .nsmap 属性中为您收集命名空间。

关于python - 使用 etree 从文件中解析 xml 在读取字符串时有效,但在读取文件时则无效,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15365056/

相关文章:

Python/Pandas - 用另一个数据框中的值替换一个数据框中的元素

python - re.sub(...) 替换最左边的事件?

android - 为什么 values-w820dp/dimens.xml 文件中的值未应用于 Nexus 7 和 10 模拟器?

java - 如何加速 Android XML 解析?

xml - 如何使用Xquery和FLOWR来迭代并返回每个结果?

python - 如何使用 Pandas 从文件中提取 html 表格?

python - 如何使用另一个列表中的字符串创建列表?

xml - XPath 可以连接两个节点集值吗? (用于 XForms)

通过装饰器进行对象-XML 映射的 Python 框架?

ios - 如何解析响应标记内包含 XML 文档的 SOAP 响应