python-2.7 - Python nltk.clean_html未实现

我一直在尝试使用

myNews=urlopen(url).read()    
myNews=nltk.clean_html(myNews)

我收到以下错误:

在clean_html中的文件“/usr/local/lib/python2.7/dist-packages/nltk-3.0.0-py2.7.egg/nltk/util.py”，第346行
引发NotImplementedError(“要删除HTML标记，请使用BeautifulSoup的get_text()函数”)
NotImplementedError:要删除HTML标记，请使用BeautifulSoup的get_text()函数

当我查看文件util.py时，我看到它没有实现:

def clean_html(html):
    raise NotImplementedError ("To remove HTML markup, use BeautifulSoup's get_text() function")

应该不执行吗？

最佳答案

clean_html()和clean_url()是NLTK中的一个可爱函数，由于BeautifulSoup可以更好地完成工作并解析标记语言，因此已删除了该函数，请参阅https://github.com/nltk/nltk/commit/39a303e5ddc4cdb1a0b00a3be426239b1c24c8bb

这是BeautifulSoup的文档:http://www.crummy.com/software/BeautifulSoup/bs4/doc/

关于python-2.7 - Python nltk.clean_html未实现，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/26002076/

上一篇：ruby-on-rails - :name:Symbol Rails 4. 1.x collection_select 的未定义方法 `merge'

下一篇：Javascript:mutationobserver 没有警告消息

相关文章：

python - 使用 NLTK 的高效术语文档矩阵

python - Numpy bool 数组上的 bool 运算符之和(错误？)

python - 计算目录中多个csv文件的列数

python - NLTK:如何从 csv 文件创建语料库

python - 如何使用 Python NLTK 计算 WordNet 中两个形容词之间的最短路径(测地线)距离？

nltk - 当我在 NLTK 中尝试 FreqDist() 时收到错误消息 -- NameError : name 'nltk' is not defined

python - 在 NLTK 中使用预训练的 MaltParser 模型

python - 属于某个类的函数对象在属性查找时是否会受到特殊处理？

python - 将 QTextEdit 的内容保存为 *.pdf？

python - 错误 : "No module named _markerlib" when installing some packages on virtualenv