python-2.7 - Python nltk.clean_html未实现

标签 python-2.7 nltk

我一直在尝试使用

myNews=urlopen(url).read()    
myNews=nltk.clean_html(myNews)

我收到以下错误:

在clean_html中的文件“/usr/local/lib/python2.7/dist-packages/nltk-3.0.0-py2.7.egg/nltk/util.py”,第346行
引发NotImplementedError(“要删除HTML标记,请使用BeautifulSoup的get_text()函数”)
NotImplementedError:要删除HTML标记,请使用BeautifulSoup的get_text()函数

当我查看文件util.py时,我看到它没有实现:
def clean_html(html):
    raise NotImplementedError ("To remove HTML markup, use BeautifulSoup's get_text() function")

应该不执行吗?

最佳答案

clean_html()clean_url()是NLTK中的一个可爱函数,由于BeautifulSoup可以更好地完成工作并解析标记语言,因此已删除了该函数,请参阅https://github.com/nltk/nltk/commit/39a303e5ddc4cdb1a0b00a3be426239b1c24c8bb

这是BeautifulSoup的文档:http://www.crummy.com/software/BeautifulSoup/bs4/doc/

关于python-2.7 - Python nltk.clean_html未实现,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26002076/

相关文章:

python - 使用 NLTK 的高效术语文档矩阵

python - Numpy bool 数组上的 bool 运算符之和(错误?)

python - 计算目录中多个csv文件的列数

python - NLTK:如何从 csv 文件创建语料库

python - 如何使用 Python NLTK 计算 WordNet 中两个形容词之间的最短路径(测地线)距离?

nltk - 当我在 NLTK 中尝试 FreqDist() 时收到错误消息 -- NameError : name 'nltk' is not defined

python - 在 NLTK 中使用预训练的 MaltParser 模型

python - 属于某个类的函数对象在属性查找时是否会受到特殊处理?

python - 将 QTextEdit 的内容保存为 *.pdf?

python - 错误 : "No module named _markerlib" when installing some packages on virtualenv