python - 如何从html文件中解析文本

import urllib2
import nltk
from HTMLParser import HTMLParser
from bs4 import BeautifulSoup




l = """<TR><TD><small style=font-family:courier> >M. tuberculosis H37Rv|Rv3676|crp<br />VDEILARAGIFQGVEPSAIAALTKQLQPVDFPRGHTVFAEGEPGDRLYIIISGKVKIGRR<br />APDGRENLLTIMGPSDMFGELSIFDPGPRTSSATTITEVRAVSMDRDALRSWIADRPEIS<br />EQLLRVLARRLRRTNNNLADLIFTDVPGRVAKQLLQLAQRFGTQEGGALRVTHDLTQEEI<br />AQLVGASRETVNKALADFAHRGWIRLEGKSVLISDSERLARRAR<br /></small><TR><td><b><big>Blastp: <a href="http://tuberculist.epfl.ch/blast_output/Rv3676.fasta.out"> Pre-computed results</a></big></b><TR><td><b><big>TransMembrane prediction using Hidden Markov Models: <a href="http://tuberculist.epfl.ch/tmhmm/Rv3676.html"> TMHMM</a></big></b><base target="_blank"/><TR><td><b><big>Genomic sequence</big></b><br /><br /><form action="dnaseq.php" method="get">"""

print l

我有一个 HTML 行，想要提取嵌入到 HTML 标记中的文本。我已经尝试了所有可用的方法，但它们不适用于我的情况。

我该怎么做？

预期输出应该是:

H37Rv|Rv3676|crp VDEILARAGIFQGVEPSAIAALTKQLQPVDFPRGHTVFAEGEPGDRLYIIISGKVKIGRRAPDGRENLLTIMGPSDMFGELSIFDPGPRTSSATTITEVRAVSMDRDALRSWIADRPEISEQLLRVLARRLRRTNNNLADLIFTDVPGRVAKQLLQLAQRFGTQEGGALRVTHDLTQEEIAQLVGASRETVNKALADFAHRGWIRLEGKSVLISDERLARRAR

最佳答案

我注意到您导入了BeautifulSoup，因此您可以使用BeautifulSoup来帮助您提取这些信息。

soup = BeautifulSoup(l,"html.parser")
print soup.get_text()

我试过了，成功了，但是最后一个标签中的句子也会被提取，如果需要，你必须剪切结果。

关于python - 如何从html文件中解析文本，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39846780/

python - 如何从html文件中解析文本

上一篇：Python:从垂直线用户输入到列表

下一篇：python - Landsat-8 图像的 RGB 合成