python - 将连续的重复字符替换为一个 - 逐列操作 - `pandas.DataFrame`

如何删除字符串中的重复字符并只保留其中一个。

例如:-

"Bertuggggg Mete"

至

"Bertug Mete"

我刚刚读取了这样的数据:

dataFrame = pd.read_excel("C:\\Users\\Bertug\\Desktop\\example.xlsx")

姓名 0 贝尔图格米特

输入是从 .xlsx 文件读取的。我尝试过分割和剥离功能，但它们不起作用，似乎按预期工作。

我该如何解决这个问题？

最佳答案

看看这个:

将 column_name 替换为您想要应用替换的列名称。

min_threshold_rep = 2
column_name = 'Name'
dataframe[column_name]= dataframe[column_name].str.replace(r'(\w)\1{%d,}'%(min_threshold_rep-1), r'\1')

注意:这会将每 min_threshold_rep 个连续字符替换为一个字符。

关于python - 将连续的重复字符替换为一个 - 逐列操作 - `pandas.DataFrame`，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43110237/