python - 如果字符串单词包含特定字符，则删除包含该字符的单词

关闭。这个问题需要多问focused 。目前不接受答案。

想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post .

已关闭 6 年前。

假设我有如下数据，

data['sentences']

This is a sentence
Donald Trump
Machine Learning
Python is good

我想搜索字符模式，如果找到，则需要删除包含该字符的单词。

假设我想删除带有“enc”、“ood”和“ump”的单词，输出应该是，

data['sentences']

This is a 
Donald 
Machine Learning
Python is

我在使用 re.sub 的地方尝试了以下操作，

re.sub("enc", "", y)

但这给出的输出类似于 This is a sente 。我不知道如何删除整个单词。

任何人都可以帮我用Python来做这件事吗？我想找到有效的方法来执行此操作，因为我想使用 pyspark 运行近 10 亿条记录。有人可以帮我做这个吗？

谢谢

最佳答案

在标识符之前和之后添加迭代:

re.sub(r'\w*enc\w*', '', y)

这会将所有字母数字字符以及指定的字符串(即它包含的单词)替换为空白。

关于python - 如果字符串单词包含特定字符，则删除包含该字符的单词，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39355026/