python - 如何使用python获取xml文件中的部分内容?

标签 python xml

我已经使用 python 解析了 XML 文件。其中一个标签上写有 ID,然后是氨基酸序列。我只想得到氨基酸序列而不是ID。 标签如下所示:

  <sequences>
    <sequence format="FASTA">&gt;DB00001 sequence
LTYTDCTESGQNLCLCEGSNVCGQGNKCILGSDGEKNQCVTGEGTPKPQSHNDGDFEEIP
EEYLQ</sequence>
  </sequences>

当我使用此代码时:

drug.find('sequences').find('sequence').text

它打印:

>DB00001 sequence
LTYTDCTESGQNLCLCEGSNVCGQGNKCILGSDGEKNQCVTGEGTPKPQSHNDGDFEEIP
EEYLQ

但我只想打印LTYTDCTESGQNLCLCEGSNVCGQGNKCILGSDGEKNQCVTGEGTPKPQSHNDGDFEEIPEEYLQ

非常感谢能解决我的问题的答案。

最佳答案

我使用了模块xml.etree.ElementTree要解析 XML 内容,请找到 <sequence>元素,提取其文本内容,然后处理得到所需的不带ID的氨基酸序列。

import xml.etree.ElementTree as ET

# Sample XML content
xml_content = '''
<sequences>
  <sequence format="FASTA">&gt;DB00001 sequence
LTYTDCTESGQNLCLCEGSNVCGQGNKCILGSDGEKNQCVTGEGTPKPQSHNDGDFEEIP
EEYLQ</sequence>
</sequences>
'''

# Parse the XML content
root = ET.fromstring(xml_content)

# Find the sequence element and extract the text
sequence_element = root.find('.//sequence')
sequence_text = sequence_element.text.strip().split('\n', 1)[1].replace('\n', '')

print(sequence_text)

输出:

LTYTDCTESGQNLCLCEGSNVCGQGNKCILGSDGEKNQCVTGEGTPKPQSHNDGDFEEIPEEYLQ

关于python - 如何使用python获取xml文件中的部分内容?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/76905100/

相关文章:

python - 图像算术运算 - OpenCV Python 练习

python - 使用 SQLAlchemy 将字符串文字作为 'like' 运算符的左侧参数

python - scipy.signal.convolve2d 计算什么?

xml - 如何在有效的 XML 文档中定义 HTML 实体引用?

XML 替换标签的值并添加标签

python - 使用正则表达式根据列的值在数据集中创建新列

python - 索引错误: list index out of range but I have more than enough elements?! Python

python - 使用 python 将 rss feeds 标签 pubDate 导入 MySQL 数据库时出错

android - 什么是布局中的 <view/> XML 标签

javascript - 如何定位嵌套 XML 数据以更新 firebase