更详细一点,我在 txt 文件中有一个常见单词列表,我想检查另一个文件 (html) 中是否存在这些单词(大约 2000 个),以及它们是否确实用常量替换它们字符串(例如 sssss)。正则表达式对我使用这些 \b \b(?:one|two|three)\b or \w or ?:^|(?<= ))(one|common|word|or|another)(?:(?= )|$)
没有多大帮助.
现在我知道如何打开文件并导入第一个列表,但我不知道如何根据巨大的文本检查该列表的每个条目并替换它们的实例。我不介意这是否需要时间,我只是真的需要完成这件事,但不知道如何做。
import re
import string
f = open('test2.txt', 'r')
lines = f.readlines()
print (lines)
最佳答案
这里给你一个提示。将每个文件解析为 set
其中每个单词都是一个条目。
然后您可以使用聚合函数之一对两组进行比较:union
, intersection
, difference
,或symmetric difference
.
正则表达式不是必需的,除非您计划与每个单词建立额外的关联(将 cat
与 cats
进行比较)。但如果您打算走这条路,那么您最好生成 Trie (prefix tree) 。如果您愿意展示更多代码(进度),我可以扩展更多内容。
关于python - 从 fileS 的单词中创建一个列表,并用该列表对照 python 中的文件进行检查,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51502987/