我有一个文档列表,例如:
documents = [ 'this is document number 1',
'this is document number 2',
'this is document number 3',
...]]
和一个大约 20 万个单词的向量:wordVector = ['word1', 'word2'.....'rare_word']
其中稀有词是向量中的最后一个词。另外,对应于 wordVector 中的每个单词,我有一个 1x2 向量(因此完整的 wordVec 是一个 Nx2 数组),它们是这些单词的表示。
现在,我想使用 wordVector
和 Nx2
数组将“文档”中的所有单词替换为其相应的表示形式,如果找不到该单词,或者文档为空,它被分配了 NX2 数组的最后一个值。现在我正在使用循环并在 wordVec 中查找单词,然后替换它们。由于数据集巨大,该过程需要大量时间。有没有快速/Pythonic 的方法来完成这个?
最佳答案
将其设为字典并尝试以下操作:
replacedWord = wordDict.get(currentWord, 'rare_word')
这应该为您从字典中获取匹配的替换条目,如果没有这样的条目,将使用“rare_word”。
关于python - 替换大列表中的所有单词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18870564/