我已经使用 python 解析了 XML 文件。其中一个标签上写有 ID,然后是氨基酸序列。我只想得到氨基酸序列而不是ID。 标签如下所示:
<sequences>
<sequence format="FASTA">>DB00001 sequence
LTYTDCTESGQNLCLCEGSNVCGQGNKCILGSDGEKNQCVTGEGTPKPQSHNDGDFEEIP
EEYLQ</sequence>
</sequences>
当我使用此代码时:
drug.find('sequences').find('sequence').text
它打印:
>DB00001 sequence
LTYTDCTESGQNLCLCEGSNVCGQGNKCILGSDGEKNQCVTGEGTPKPQSHNDGDFEEIP
EEYLQ
但我只想打印LTYTDCTESGQNLCLCEGSNVCGQGNKCILGSDGEKNQCVTGEGTPKPQSHNDGDFEEIPEEYLQ
非常感谢能解决我的问题的答案。
最佳答案
我使用了模块xml.etree.ElementTree
要解析 XML 内容,请找到 <sequence>
元素,提取其文本内容,然后处理得到所需的不带ID的氨基酸序列。
import xml.etree.ElementTree as ET
# Sample XML content
xml_content = '''
<sequences>
<sequence format="FASTA">>DB00001 sequence
LTYTDCTESGQNLCLCEGSNVCGQGNKCILGSDGEKNQCVTGEGTPKPQSHNDGDFEEIP
EEYLQ</sequence>
</sequences>
'''
# Parse the XML content
root = ET.fromstring(xml_content)
# Find the sequence element and extract the text
sequence_element = root.find('.//sequence')
sequence_text = sequence_element.text.strip().split('\n', 1)[1].replace('\n', '')
print(sequence_text)
输出:
LTYTDCTESGQNLCLCEGSNVCGQGNKCILGSDGEKNQCVTGEGTPKPQSHNDGDFEEIPEEYLQ
关于python - 如何使用python获取xml文件中的部分内容?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/76905100/