python 3解决数据框问题

标签 python pandas nltk python-3.6 stop-words

我试图从包含阿拉伯语句子的 csv 文件中删除停用词,但我不确定是否有很多错误

我的代码

print(tokenized_docs_no_punctuation)
    stops = set(stopwords.words('arabic'))
    words=tokenized_docs_no_punctuation
    print([word for word in words if word not in stops])

这是错误 enter image description here

有什么想法或解决方案吗?

最佳答案

您收到的错误 TypeError: unhashable type: 'list' 表明您正在尝试对 list 对象进行哈希处理。根据您在问题中发布的代码,似乎 set(stopwords.words('arabic')) 导致了错误,因为 set 函数尝试散列参数以查找重复。查看 stopwords.words('arabic') 输出并确保输出中没有 list 对象。

关于python 3解决数据框问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59452678/

相关文章:

python - Pandas - 计算字符字段中逗号的数量

python - NLTK 和 Stanford Dependency Parser - 如何获得单词位置?

python - BiLSTM_Classifier 中的输入/输出/循环 dropout 层以及它们如何影响模型和预测

python - 在 Pandas 中添加缺失的行

python - python如何优化条件列表理解

python - 保存在django模型之前的数据处理

python - 如何将 Pandas DataFrame 中的整数 'category' dtype 转换为 'int64'/'float64' ?

python - 有Python函数可以实现这个功能吗?

python - 预处理脚本不删除标点符号

python nltk.sent_tokenize 错误ascii编解码器无法解码