import urllib2
import nltk
from HTMLParser import HTMLParser
from bs4 import BeautifulSoup
l = """<TR><TD><small style=font-family:courier> >M. tuberculosis H37Rv|Rv3676|crp<br />VDEILARAGIFQGVEPSAIAALTKQLQPVDFPRGHTVFAEGEPGDRLYIIISGKVKIGRR<br />APDGRENLLTIMGPSDMFGELSIFDPGPRTSSATTITEVRAVSMDRDALRSWIADRPEIS<br />EQLLRVLARRLRRTNNNLADLIFTDVPGRVAKQLLQLAQRFGTQEGGALRVTHDLTQEEI<br />AQLVGASRETVNKALADFAHRGWIRLEGKSVLISDSERLARRAR<br /></small><TR><td><b><big>Blastp: <a href="http://tuberculist.epfl.ch/blast_output/Rv3676.fasta.out"> Pre-computed results</a></big></b><TR><td><b><big>TransMembrane prediction using Hidden Markov Models: <a href="http://tuberculist.epfl.ch/tmhmm/Rv3676.html"> TMHMM</a></big></b><base target="_blank"/><TR><td><b><big>Genomic sequence</big></b><br /><br /><form action="dnaseq.php" method="get">"""
print l
我有一个 HTML 行,想要提取嵌入到 HTML 标记中的文本。我已经尝试了所有可用的方法,但它们不适用于我的情况。
我该怎么做?
预期输出应该是:
H37Rv|Rv3676|crp VDEILARAGIFQGVEPSAIAALTKQLQPVDFPRGHTVFAEGEPGDRLYIIISGKVKIGRRAPDGRENLLTIMGPSDMFGELSIFDPGPRTSSATTITEVRAVSMDRDALRSWIADRPEISEQLLRVLARRLRRTNNNLADLIFTDVPGRVAKQLLQLAQRFGTQEGGALRVTHDLTQEEIAQLVGASRETVNKALADFAHRGWIRLEGKSVLISDERLARRAR
最佳答案
我注意到您导入了BeautifulSoup,因此您可以使用BeautifulSoup来帮助您提取这些信息。
soup = BeautifulSoup(l,"html.parser")
print soup.get_text()
我试过了,成功了,但是最后一个标签中的句子也会被提取,如果需要,你必须剪切结果。
关于python - 如何从html文件中解析文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39846780/