我正在为我的项目使用 NLTK。但是,如果存在像“•”这样的非 ascii 单词。 NLTK 无法对其进行标记化。
我使用 nltk.word_tokenize
作为分词器。
如何从整个语料库中删除此类词或让分词器知道此类词?
最佳答案
使用以下代码从您的语料库中删除 nonascii:
ip=open(nonascii.txt,'r')
#Edit should be in w mode
op=open(ascii.txt,'w')
for line in ip:
line=line.strip().decode("ascii","ignore").encode("ascii")
if line=="":continue
op.write(line)
ip.close()
op.close()
关于python - 从语料库中删除非 ASCII,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26729556/