python - 从语料库中删除非 ASCII

标签 python unicode ascii nltk information-retrieval

我正在为我的项目使用 NLTK。但是,如果存在像“•”这样的非 ascii 单词。 NLTK 无法对其进行标记化。 我使用 nltk.word_tokenize 作为分词器。 如何从整个语料库中删除此类词或让分词器知道此类词?

最佳答案

使用以下代码从您的语料库中删除 nonascii:

ip=open(nonascii.txt,'r')
#Edit should be in w mode
op=open(ascii.txt,'w')
for line in ip:
        line=line.strip().decode("ascii","ignore").encode("ascii")
        if line=="":continue
        op.write(line)
ip.close()
op.close()

关于python - 从语料库中删除非 ASCII,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26729556/

相关文章:

python - 使用装饰器将所有 Unicode 字符串转换为二进制字符串是一种好习惯吗?

python - 编译语法错误 : non ASCII letters in a string

Python:如何找到二维点分布的第 n 个分位数

python - 使用python,是否可以直接将表单数据发送到网站服务器并在不使用浏览器的情况下接收响应?

python - 如何确保所有字符串文字在 python 中都是 unicode

java - 阐明 Java 对 Unicode 的进化支持

python - 用今天的日期替换 CSV 文件中的 'NULL' 值 - Python

python - Apache mod_wsgi 和 php 在同一个域中

java - 和之间的区别

java - 阅读替代代码 JTextArea