python - 遍历 python 列表

标签 python list nltk

我有如下的 UTF-8 Unicode 文本文件(非英语)

unicode textfile

所以我在python中将编码标记为UTF-8并将文件导入到python中。

# -*- coding: utf-8 -*-

我用“.”标记了句子。并获得句子列表。

sentence list

现在我需要与另一个 unicode 单词列表进行比较,并找出每个句子中是否有这些单词。

这是我的代码。但它只显示识别出的第一个匹配项。

for sentence in sentences:
    for word in sentence.split(" "):
        if word in pronouns:
            print sentence

编辑:

最后我注意到源文本文件中存在无效的 unicode 字符。 此处描述 Tokenizing unicode using nltk

最佳答案

我尝试模拟您的问题,但得到了预期的结果,也许问题出在编码或代词列表中。

pronouns = ['aa','bb','cc']

sentences = ['aa dkdje asdf aesr','bb asersada','cc ase aser sa sa c ','aa saef sf se s', 'aa','bb']

for sentence in sentences:
    for word in sentence.split(" "):
        if word in pronouns:
            print (sentence)

代码的输出是:

aa dkdje asdf aesr
bb asersada
cc ase aser sa sa c 
aa saef sf se s
aa
bb

希望这对您有所帮助。

关于python - 遍历 python 列表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17660859/

相关文章:

python - 在 python 中交换列表中的元素

python - R - 通过 Reticulate 解析 Python NLTK 树

python - __unicode__ 在获取字符串表示时未调用 Django/Python 项目中的某些对象

python - 在列表列表中搜索

python - 分隔 Pandas 数据框中共享同一列的月份和年份

java - 为什么我会收到缺少类型参数和类型转换的警告?

python - 从列表中随机删除两个相邻值

python - nltk 自定义分词器和标注器

python - NLTK 提取文本中存在的类别并映射到分类法

python - 如何让XPath选择具有相同id属性的多个表元素?