python - 如何从html文件中解析文本

标签 python

import urllib2
import nltk
from HTMLParser import HTMLParser
from bs4 import BeautifulSoup




l = """<TR><TD><small style=font-family:courier> >M. tuberculosis H37Rv|Rv3676|crp<br />VDEILARAGIFQGVEPSAIAALTKQLQPVDFPRGHTVFAEGEPGDRLYIIISGKVKIGRR<br />APDGRENLLTIMGPSDMFGELSIFDPGPRTSSATTITEVRAVSMDRDALRSWIADRPEIS<br />EQLLRVLARRLRRTNNNLADLIFTDVPGRVAKQLLQLAQRFGTQEGGALRVTHDLTQEEI<br />AQLVGASRETVNKALADFAHRGWIRLEGKSVLISDSERLARRAR<br /></small><TR><td><b><big>Blastp: <a href="http://tuberculist.epfl.ch/blast_output/Rv3676.fasta.out"> Pre-computed results</a></big></b><TR><td><b><big>TransMembrane prediction using Hidden Markov Models: <a href="http://tuberculist.epfl.ch/tmhmm/Rv3676.html"> TMHMM</a></big></b><base target="_blank"/><TR><td><b><big>Genomic sequence</big></b><br /><br /><form action="dnaseq.php" method="get">"""

print l

我有一个 HTML 行,想要提取嵌入到 HTML 标记中的文本。我已经尝试了所有可用的方法,但它们不适用于我的情况。

我该怎么做?

预期输出应该是:

H37Rv|Rv3676|crp VDEILARAGIFQGVEPSAIAALTKQLQPVDFPRGHTVFAEGEPGDRLYIIISGKVKIGRRAPDGRENLLTIMGPSDMFGELSIFDPGPRTSSATTITEVRAVSMDRDALRSWIADRPEISEQLLRVLARRLRRTNNNLADLIFTDVPGRVAKQLLQLAQRFGTQEGGALRVTHDLTQEEIAQLVGASRETVNKALADFAHRGWIRLEGKSVLISDERLARRAR

最佳答案

我注意到您导入了BeautifulSoup,因此您可以使用BeautifulSoup来帮助您提取这些信息。

soup = BeautifulSoup(l,"html.parser")
print soup.get_text()

我试过了,成功了,但是最后一个标签中的句子也会被提取,如果需要,你必须剪切结果。

关于python - 如何从html文件中解析文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39846780/

相关文章:

python - 用python写内存扫描器

python - scikit learn 使用多项式朴素贝叶斯作为三元组分类器?

python - 如何使用 sqlalchemy 在 sqlite 中使用正则表达式函数?

python - "How to Think Like a Computer Scientist (python)"中的练习 7.9 测量字符串中某个字符的出现次数

python - Google应用程序引擎本地主机服务器错误python

python - 如何使用 Tkinter 将小部件在窗口中垂直和水平居中?

python - 编译 Python 2.7.5 问题

python - 如何让 Django AutoFields 以更高的数字开始

python - 找出还有谁在引用,大数据

python - 迭代 pandas df 行并执行操作