以下只是 Coursera 数据科学作业的开始。我希望这不是微不足道的。但我对此迷失了方向,找不到答案。 我被要求将 Excelfile 导入 Pandas 数据框并在之后对其进行操作。该文件可在此处找到:http://unstats.un.org/unsd/environment/excel_file_tables/2013/Energy%20Indicators.xls
让我感到困难的是
a) 有 17 行的“开销”和一个页脚 b) 前两列为空 c) 索引列没有标题名
经过几个小时的搜索和阅读,我想出了这条无用的线:
energy=pd.read_excel('Energy Indicators.xls',
sheetname='Energy',
header=16,
skiprows=[17],
skipfooter=38,
skipcolumns=2
)
这似乎产生了一个多索引数据框。尽管命令 energy.head() 不返回任何内容。
我有两个问题:
- 我做错了什么。在这个练习之前,我认为我理解了数据框。但现在我完全一无所知,迷路了:-((
- 我该如何解决这个问题?我需要做什么才能将此 Excel 数据放入具有由国家/地区组成的索引的 datafrae?
谢谢。
最佳答案
我认为你需要添加参数:
index_col
用于将列转换为索引usecols
- 按位置解析列- 将标题位置更改为
15
energy=pd.read_excel('Energy Indicators.xls',
sheet_name='Energy',
skiprows=[17],
skipfooter=38,
header=15,
index_col=[0],
usecols=[2,3,4,5]
)
print (energy.head())
Energy Supply Energy Supply per capita \
Afghanistan 321 10
Albania 102 35
Algeria 1959 51
American Samoa ... ...
Andorra 9 121
Renewable Electricity Production
Afghanistan 78.669280
Albania 100.000000
Algeria 0.551010
American Samoa 0.641026
Andorra 88.695650
关于python - 将 Excel 导入 Panda Dataframe,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46953310/