python - 从 fileS 的单词中创建一个列表,并用该列表对照 python 中的文件进行检查

标签 python list replace

更详细一点,我在 txt 文件中有一个常见单词列表,我想检查另一个文件 (html) 中是否存在这些单词(大约 2000 个),以及它们是否确实用常量替换它们字符串(例如 sssss)。正则表达式对我使用这些 \b \b(?:one|two|three)\b or \w or ?:^|(?<= ))(one|common|word|or|another)(?:(?= )|$) 没有多大帮助.

现在我知道如何打开文件并导入第一个列表,但我不知道如何根据巨大的文本检查该列表的每个条目并替换它们的实例。我不介意这是否需要时间,我只是真的需要完成这件事,但不知道如何做。

import re
import string

f = open('test2.txt', 'r')
lines = f.readlines()
print (lines)

最佳答案

这里给你一个提示。将每个文件解析为 set其中每个单词都是一个条目。

然后您可以使用聚合函数之一对两组进行比较:union , intersection , difference ,或symmetric difference .

正则表达式不是必需的,除非您计划与每个单词建立额外的关联(将 catcats 进行比较)。但如果您打算走这条路,那么您最好生成 Trie (prefix tree) 。如果您愿意展示更多代码(进度),我可以扩展更多内容。

关于python - 从 fileS 的单词中创建一个列表,并用该列表对照 python 中的文件进行检查,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51502987/

相关文章:

python - 将行复制到 python 中

python - 生成准周期信号

python - 如何限制列表中的位数?

vim - Greplace 的语法

python - scipy ND 对 NaN 进行插值

java - 如何在JAVA 8中处理对象的嵌套列表-顺序处理内部列表,而必须并行处理外部列表

python - 使用 Python 从列表和字典构建数组

replace - 替换列表中的项目

c# - Mirc 颜色代码的正则表达式替换

Python CGI 显示 500 内部服务器错误