python - 替换大列表中的所有单词

标签 python

我有一个文档列表,例如:

documents = [ 'this is document number 1',
              'this is document number 2',
              'this is document number 3',
                                    ...]]

和一个大约 20 万个单词的向量:wordVector = ['word1', 'word2'.....'rare_word']

其中稀有词是向量中的最后一个词。另外,对应于 wordVector 中的每个单词,我有一个 1x2 向量(因此完整的 wordVec 是一个 Nx2 数组),它们是这些单词的表示。

现在,我想使用 wordVectorNx2 数组将“文档”中的所有单词替换为其相应的表示形式,如果找不到该单词,或者文档为空,它被分配了 NX2 数组的最后一个值。现在我正在使用循环并在 wordVec 中查找单词,然后替换它们。由于数据集巨大,该过程需要大量时间。有没有快速/Pythonic 的方法来完成这个?

最佳答案

将其设为字典并尝试以下操作:

replacedWord = wordDict.get(currentWord, 'rare_word')

这应该为您从字典中获取匹配的替换条目,如果没有这样的条目,将使用“rare_word”。

关于python - 替换大列表中的所有单词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18870564/

相关文章:

python - 当一个属性是模型方法时 Django QuerySet 的升序/降序排序

python - 如何操作来自 cx_Oracle 的查询结果

python - OneHotEncoder 之前和之后的不同结果

python - 获取sublime text 3插件中的文件语法选择

java - 使用存储在 memcache 中的 db 哈希表结合 cron 作业写入 google app engine Datastore

python - 如何将巨大的 Pandas 数据框保存到 hdfs?

python - 当列表大小不是某个值的倍数时,我应该提出什么错误?

Python:如何 "kill"类实例/对象?

python - 如何从另一个 kodi/xbmc 插件调用方法

python - 在 sphinx 文档中打印变量值