python - 替换大列表中的所有单词

我有一个文档列表，例如:

documents = [ 'this is document number 1',
              'this is document number 2',
              'this is document number 3',
                                    ...]]

和一个大约 20 万个单词的向量:wordVector = ['word1', 'word2'.....'rare_word']

其中稀有词是向量中的最后一个词。另外，对应于 wordVector 中的每个单词，我有一个 1x2 向量(因此完整的 wordVec 是一个 Nx2 数组)，它们是这些单词的表示。

现在，我想使用 wordVector 和 Nx2 数组将“文档”中的所有单词替换为其相应的表示形式，如果找不到该单词，或者文档为空，它被分配了 NX2 数组的最后一个值。现在我正在使用循环并在 wordVec 中查找单词，然后替换它们。由于数据集巨大，该过程需要大量时间。有没有快速/Pythonic 的方法来完成这个？

最佳答案

将其设为字典并尝试以下操作:

replacedWord = wordDict.get(currentWord, 'rare_word')

这应该为您从字典中获取匹配的替换条目，如果没有这样的条目，将使用“rare_word”。

关于python - 替换大列表中的所有单词，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18870564/

上一篇：python - 密码字段在表单值更新时显示哈希值

下一篇：python - Py.test 跳过消息不显示在 Jenkins 中

python - 如何操作来自 cx_Oracle 的查询结果

python - OneHotEncoder 之前和之后的不同结果

python - 获取sublime text 3插件中的文件语法选择

java - 使用存储在 memcache 中的 db 哈希表结合 cron 作业写入 google app engine Datastore

python - 如何将巨大的 Pandas 数据框保存到 hdfs？

python - 当列表大小不是某个值的倍数时，我应该提出什么错误？

Python:如何 "kill"类实例/对象？

python - 如何从另一个 kodi/xbmc 插件调用方法

python - 在 sphinx 文档中打印变量值