如何删除字符串中的重复字符并只保留其中一个。
例如:-
"Bertuggggg Mete"
至
"Bertug Mete"
我刚刚读取了这样的数据:
dataFrame = pd.read_excel("C:\\Users\\Bertug\\Desktop\\example.xlsx")
姓名 0 贝尔图格米特
输入是从 .xlsx 文件读取的。我尝试过分割和剥离功能,但它们不起作用,似乎按预期工作。
我该如何解决这个问题?
最佳答案
看看这个:
将 column_name
替换为您想要应用替换的列名称。
min_threshold_rep = 2
column_name = 'Name'
dataframe[column_name]= dataframe[column_name].str.replace(r'(\w)\1{%d,}'%(min_threshold_rep-1), r'\1')
注意:这会将每 min_threshold_rep
个连续字符替换为一个字符。
关于python - 将连续的重复字符替换为一个 - 逐列操作 - `pandas.DataFrame`,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43110237/