假设我有如下数据,
data['sentences']
This is a sentence
Donald Trump
Machine Learning
Python is good
我想搜索字符模式,如果找到,则需要删除包含该字符的单词。
假设我想删除带有“enc”、“ood”和“ump”的单词,输出应该是,
data['sentences']
This is a
Donald
Machine Learning
Python is
我在使用 re.sub 的地方尝试了以下操作,
re.sub("enc", "", y)
但这给出的输出类似于 This is a sente
。我不知道如何删除整个单词。
任何人都可以帮我用Python来做这件事吗?我想找到有效的方法来执行此操作,因为我想使用 pyspark 运行近 10 亿条记录。有人可以帮我做这个吗?
谢谢
最佳答案
在标识符之前和之后添加迭代:
re.sub(r'\w*enc\w*', '', y)
这会将所有字母数字字符以及指定的字符串(即它包含的单词)替换为空白。
关于python - 如果字符串单词包含特定字符,则删除包含该字符的单词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39355026/