我需要将 2 个 csv 混合到 1 个中。我将两者都转换为列表,因为我认为这是最好的方法!另外,请记住,Client
和 Date
位于不同的列中,并且两个文件中的数据顺序可能不同!
列表1 csv:
Cliente Fecha Status
interlatin 01/01/2018 Alerta Revenue: aumento Subastadas - descenso eCPM y Fillrate
interlatin 31/12/2017 Alerta Fillrate -- Incremento Revenue - Imp Vendidas - Subastadas: Precaucion Fillrate buena Mejora
mmmm 01/01/2018 Alerta Revenue: aumento Subastadas - descenso eCPM y Fillrate
mmmm 31/12/2017 Alerta Fillrate -- Incremento Revenue - Imp Vendidas - Subastadas: Precaucion Fillrate buena Mejora
KKKKK 01/01/2018 Alerta Revenue: aumento Subastadas - descenso eCPM y Fillrate
KKKKK 31/12/2017 Alerta Fillrate -- Incremento Revenue - Imp Vendidas - Subastadas: Precaucion Fillrate buena Mejora
列表2 csv:
Fecha Cliente Subastas Impresiones_exchange Fill_rate Importe_a_pagar_a_medio ECPM_medio
31/12/2017 interlatin 2141801 303970 14.19 339.12 1.12
01/01/2018 interlatin 308759 70938 22.98 41.9 0.59
31/12/2017 mmmm 2141801 303970 14.19 339.12 1.12
01/01/2018 mmmm 308759 70938 22.98 41.9 0.59
31/12/2017 KKKKK 2141801 303970 14.19 339.12 1.12
01/01/2018 KKKKK 308759 70938 22.98 41.9 0.59
我在寻找什么:
Cliente Fecha Subastas Impresiones_exchange Fill_rate Importe_a_pagar_a_medio ECPM_medio Status
interlati 01/01/2018 2141801 303970 14.19 339.12 1.12 Alerta Revenue: aumento Subastadas - descenso eCPM y Fillrate
interlati 31/12/2017 308759 70938 22.98 41.9 0.59 Alerta Fillrate -- Incremento Revenue - Imp Vendidas - Subastadas: Precaucion Fillrate buena Mejora
mmmm 01/01/2018 2141801 303970 14.19 339.12 1.12 Alerta Revenue: aumento Subastadas - descenso eCPM y Fillrate
mmmm 31/12/2017 308759 70938 22.98 41.9 0.59 Alerta Fillrate -- Incremento Revenue - Imp Vendidas - Subastadas: Precaucion Fillrate buena Mejora
KKKKK 01/01/2018 2141801 303970 14.19 339.12 1.12 Alerta Revenue: aumento Subastadas - descenso eCPM y Fillrate
KKKKK 31/12/2017 308759 70938 22.98 41.9 0.59Alerta Fillrate -- Incremento Revenue - Imp Vendidas - Subastadas: Precaucion Fillrate buena Mejora
代码:
import csv
with open('list1.csv', 'rb') as f:
reader = csv.reader(f)
list1 = list(reader)
with open('list2.csv', 'rb') as f:
reader = csv.reader(f)
list2 = list(reader)
list1[:] = [','.join(item).split(',') for item in list1]
list2[:] = [','.join(item).split(',') for item in list2]
for i, item in enumerate(list2):
list1[i].append(item[-1])
with open("output.csv", "wb") as f:
writer = csv.writer(f)
writer.writerows(list1)
最佳答案
最好将 csv 文件读入数据帧 df1 和 df2。
import pandas as pd
df1 = pd.read_csv('file1.csv')
df2 = pd.read_csv('file2.csv')
然后创建一个公共(public)列:
# CREATE A MERGED COLUMN OF CLIENTE AND FECHA IN BOTH DATAFRAMES:
df1['cl_fecha'] = df1['Cliente']+"_"+df1['Fecha']
df2['cl_fecha'] = df2['Cliente']+"_"+df2['Fecha']
并合并两个数据框(将在公共(public)列上自动合并,条目顺序无关紧要):
# MERGE 2 DATAFRAMES TO GET DESIRED OUTPUT:
df_merged = pd.merge(df1, df2)
print(df_merged)
输出(空条目由 Nan 填充):
Cliente Fecha Status \
0 interlatin 01/01/2018 Alerta Revenue: aumento Subastadas - descenso ...
1 interlatin 31/12/2017 Alerta Fillrate -- Incremento Revenue - Imp Ve...
2 mmmm 01/01/2018 Alerta Revenue: aumento Subastadas - descenso ...
3 mmmm 31/12/2017 Alerta Fillrate -- Incremento Revenue - Imp Ve...
4 KKKKK 01/01/2018 Alerta Revenue: aumento Subastadas - descenso ...
5 KKKKK 31/12/2017 Alerta Fillrate -- Incremento Revenue - Imp Ve...
cl_fecha Subastas Impresiones_exchange Fill_rate \
0 interlatin_01/01/2018 308759 70938.00 22.98
1 interlatin_31/12/2017 2141801 303970 14.19 339.12
2 mmmm_01/01/2018 308759 70938.00 22.98
3 mmmm_31/12/2017 2141801 303970 14.19 339.12
4 KKKKK_01/01/2018 308759 70938.00 22.98
5 KKKKK_31/12/2017 2141801 303970 14.19 339.12
Importe_a_pagar_a_medio ECPM_medio
0 41.90 0.59
1 1.12 NaN
2 41.90 0.59
3 1.12 NaN
4 41.90 0.59
5 1.12 NaN
按照评论中的建议,使用 to_csv
写入新的 csv 文件:
df_merged.to_csv('df_merged.csv')
编辑:实际上,没有必要创建合并列。只需使用 pd.merge(df1, df2)
合并两个数据帧也会产生正确的输出。 Pandas merge
函数还有几个选项可以根据需要使用: https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.merge.html
关于python - 将两个 csv 数据混合为一个,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48171894/