python - pandas 保留具有多个分隔符的行

标签 python pandas

一个包含多列的文本文件仅显示 2 列和 5 行,原始 df 有约 400,000 行

col0 col1 
A1   info
A2   info1,info2
A3   info4,info1,info6
A4   info3,info10
A5   info7,info1,info2,info4,info9

我想做的是有一行 col1 有多个元素保留第一个元素并删除其余元素的预期输出

col0 col1 
A1   info
A2   info1
A3   info4
A4   info3
A5   info7

为了进行完整性检查,是否可以在单独的文本文件中输出修改的行? 示例

file_with_rows_modified.txt 将有

col0 col1
A2   info1,info2
A3   info4,info1,info6
A4   info3,info10
A5   info7,info1,info2,info4,info9

编辑:这些是扁平字符串

最佳答案

你需要

df.col1 = df.col1.str.split(',').str[0]


    col0    col1
0   A1      info
1   A2      info1
2   A3      info4
3   A4      info3
4   A5      info7

对于你的第二个问题,

df[df.col1.str.split(',').str.len() >1]

将返回所有需要编辑的行,以便您可以在修改数据框之前将结果保存到另一个 df

关于python - pandas 保留具有多个分隔符的行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43901238/

相关文章:

python - 给定位置 (X,Y) 沿第三轴 (Z) 更新 Rank3 tensorflow 张量中的切片

python - 根据另一列的值从一列中提取模式

python - 预处理数据时 ValueError : Input contains NaN, 无穷大或对于 dtype ('float64' 的值太大)

python - 如何通过索引更改基于另一列的一列值

python - 使用 a.empty、a.bool()、a.item()、a.any() 或 a.all()

python - 使用python逐行解析hl7消息

python - Python 方法名称末尾的括号是什么?

python - 如何调整 QLabels 的大小以适合 QScrollArea 中的内容

python - Tensorflow Dataset API 读取 csv 转换 tfrecords

python - Pandas 中的条件颜色格式