我有一个带有俄文文本的 html 文件。我如何在没有 html 标签、特殊符号等的情况下获取文本中的所有单词?
示例:
<html>...<body>...<div id='text'>Foo bar! Foo, bar.</div></body></html>
我需要:
['foo','bar','Foo','bar']
我试过 nltk,但它不支持俄语单词。
最佳答案
一定要试试 BeautifulSoup , 它 supports Unicode .
关于Python html 处理,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9230675/