这似乎是一个非常简单的任务,但我无法让代码工作。
我只是想清理表格中的推文回复,并使用 kaggle 上的 jupyter 笔记本仅保留字母
问题是,无论我使用什么代码,都好像什么也没发生
我尝试了以下方法:
pattern=re.compile('\[].\\n')
dfreplies.Replies.str.replace(pattern, '',regex=True)
实际结果的示例是:
dfreplies.Replies
>>> Replies
0 [I need \n, [[#] a soda please]
1 [bla bla + but nice hair, [[@],]
2 [Great idea https://www.music.pe, follow us]
我期待
>>> Replies
0 I need a soda please
1 bla bla but nice hair
2 Great idea, follow us
最佳答案
根据您的预期输出,您需要更复杂的替换,如下所示:
In [256]: df['Replies'].str.replace(r'([\[\]#+@]+|\\n),?\s*|\s*https?://[^\s,]+', '', regex=True)
Out[256]:
0 I need a soda please
1 bla bla but nice hair,
2 Great idea, follow us
Name: Replies, dtype: object
关于python - 如何使用 str.replace 清理列的每一行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57732600/