python - 如何使用python获取xml文件中的部分内容？

我已经使用 python 解析了 XML 文件。其中一个标签上写有 ID，然后是氨基酸序列。我只想得到氨基酸序列而不是ID。标签如下所示:

  <sequences>
    <sequence format="FASTA">&gt;DB00001 sequence
LTYTDCTESGQNLCLCEGSNVCGQGNKCILGSDGEKNQCVTGEGTPKPQSHNDGDFEEIP
EEYLQ</sequence>
  </sequences>

当我使用此代码时:

drug.find('sequences').find('sequence').text

它打印:

>DB00001 sequence
LTYTDCTESGQNLCLCEGSNVCGQGNKCILGSDGEKNQCVTGEGTPKPQSHNDGDFEEIP
EEYLQ

但我只想打印LTYTDCTESGQNLCLCEGSNVCGQGNKCILGSDGEKNQCVTGEGTPKPQSHNDGDFEEIPEEYLQ

非常感谢能解决我的问题的答案。

最佳答案

我使用了模块xml.etree.ElementTree要解析 XML 内容，请找到 <sequence>元素，提取其文本内容，然后处理得到所需的不带ID的氨基酸序列。

import xml.etree.ElementTree as ET

# Sample XML content
xml_content = '''
<sequences>
  <sequence format="FASTA">&gt;DB00001 sequence
LTYTDCTESGQNLCLCEGSNVCGQGNKCILGSDGEKNQCVTGEGTPKPQSHNDGDFEEIP
EEYLQ</sequence>
</sequences>
'''

# Parse the XML content
root = ET.fromstring(xml_content)

# Find the sequence element and extract the text
sequence_element = root.find('.//sequence')
sequence_text = sequence_element.text.strip().split('\n', 1)[1].replace('\n', '')

print(sequence_text)

输出:

LTYTDCTESGQNLCLCEGSNVCGQGNKCILGSDGEKNQCVTGEGTPKPQSHNDGDFEEIPEEYLQ

关于python - 如何使用python获取xml文件中的部分内容？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/76905100/

上一篇：python - 通过 `re.split` 直接(在 Python 中)分隔每两个相邻不同数字之间的字符串？

下一篇：python - 为什么在 Python 中将 len 的返回值转换为 int ？

相关文章：

python - 图像算术运算 - OpenCV Python 练习

python - 使用 SQLAlchemy 将字符串文字作为 'like' 运算符的左侧参数

python - scipy.signal.convolve2d 计算什么？

xml - 如何在有效的 XML 文档中定义 HTML 实体引用？

XML 替换标签的值并添加标签

python - 使用正则表达式根据列的值在数据集中创建新列

python - 索引错误: list index out of range but I have more than enough elements?! Python

python - 使用 python 将 rss feeds 标签 pubDate 导入 MySQL 数据库时出错

android - 什么是布局中的 <view/> XML 标签

javascript - 如何定位嵌套 XML 数据以更新 firebase