python - 如何使用 str.replace 清理列的每一行

标签 python pandas

这似乎是一个非常简单的任务,但我无法让代码工作。

我只是想清理表格中的推文回复,并使用 kaggle 上的 jupyter 笔记本仅保留字母

问题是,无论我使用什么代码,都好像什么也没发生

我尝试了以下方法:

pattern=re.compile('\[].\\n')
dfreplies.Replies.str.replace(pattern, '',regex=True)

实际结果的示例是:

dfreplies.Replies
>>>     Replies
0       [I need \n, [[#] a soda please]
1       [bla bla + but nice hair, [[@],]
2       [Great idea https://www.music.pe, follow us]

我期待

>>>     Replies
0       I need a soda please
1       bla bla but nice hair
2       Great idea, follow us

最佳答案

根据您的预期输出,您需要更复杂的替换,如下所示:

In [256]: df['Replies'].str.replace(r'([\[\]#+@]+|\\n),?\s*|\s*https?://[^\s,]+', '', regex=True)               
Out[256]: 
0       I need a soda please
1    bla bla but nice hair, 
2      Great idea, follow us
Name: Replies, dtype: object

关于python - 如何使用 str.replace 清理列的每一行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57732600/

相关文章:

python - 通过将原始 DF 拆分为不同类别来创建 Pandas DataFrame

python - 合并两个数据框 - python 中的 UPSERT

python - 尝试在 python 中标记编码时,ValueError 包含新标签

python - 使用 sqlite 的 FTS 片段功能处理 html 转义

python - 多处理池初始化程序无法进行酸洗

python - 向 Django 2.1 管理站点添加忘记密码功能

python - 如何在 Python 中使用 Gtk3 GtkTreeRowReference

pandas - 您可以附加到 .feather 格式吗?

python - DataFrame 列名称中包含的属性/信息

python - 为什么在我的 CSS 中提供网络字体文件时会出现 500 错误?