python - 为什么 pandas DataFrame 中的列在此循环中不起作用？

我有一个从篮球引用中获取的带有球员姓名的数据帧。下面的代码是我构建 DataFrame 的方法。它有 5 列玩家姓名，但每个名称还包含玩家的位置。

url = "http://www.basketball-reference.com/awards/all_league.html"
dframe_list = pd.io.html.read_html(url)
df = dframe_list[0]
df.drop(df.columns[[0,1,2]], inplace=True, axis=1)
column_names = ['name1', 'name2', 'name3', 'name4', 'name5']
df.columns = column_names
df = df[df.name1.notnull()]

我正在尝试拆分职位。为此，我计划为每个名称列创建一个 DataFrame:

name1 = pd.DataFrame(df.name1.str.split().tolist()).ix[:,0:1]
name1[0] = name1[0] + " " + name1[1]
name1.drop(name1.columns[[1]], inplace=True, axis=1)

由于我有五列，我想我会用循环来完成此操作

column_names = ['name1', 'name2', 'name3', 'name4', 'name5']
for column in column_names:
    column = pd.DataFrame(df.column.str.split().tolist()).ix[:,0:1]
    column[0] = column[0] + " " + column[1]
    column.drop(column.columns[[1]], inplace=True, axis=1)
    column.columns = column

然后我会将所有这些 DataFrame 重新连接在一起。

df_NBA = [name1, name2, name3, name4, name5]
df_NBA = pd.concat(df_NBA, axis=1)

我是Python新手，所以我确信我正在以一种相当麻烦的方式做这件事，并且希望得到关于如何更快地做到这一点的建议。但我的主要问题是，当我在各个列上运行代码时，它工作正常，但是如果当我运行循环时，我会收到错误:

AttributeError: 'DataFrame' object has no attribute 'column'

似乎循环的部分df.column.str引起了一些问题？我摆弄了列表、括号列(我仍然不明白为什么有时我将 DataFrame 列括起来，有时是 .column，但这是一个更大的问题)和其他随机的东西。

当我尝试@BrenBarn的建议时

df.apply(lambda c: c.str[:-2])

Jupyter 笔记本中会弹出以下内容:

SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation:    http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  if __name__ == '__main__':

查看 DataFrame，实际上没有任何变化，如果我正确理解文档，此方法会创建带有编辑的 DataFrame 的副本，但这是一个临时副本，之后会被丢弃，因此实际的 DataFrame 不会改变。

最佳答案

如果位置标签始终只有一个字符，简单的解决方案是:

>>> df.apply(lambda c: c.str[:-2])
           name1         name2
0     Marc Gasol  Lebron James
1      Pau Gasol  Kevin Durant
2  Dwight Howard  Kyrie Irving

系列的 str 属性允许您执行字符串操作，包括索引，因此这只是修剪每个值的最后两个字符。

至于您关于df.column的问题，这个问题比pandas更普遍。这两件事并不相同:

# works
obj.attr

# doesn't work
attrName = 'attr'
obj.attrName

当您想要访问名称存储在变量中的属性时，不能使用点符号。一般来说，您可以使用getattr函数来代替。但是，pandas 通过将名称指定为字符串(而不是源代码标识符)来提供用于访问列的方括号表示法。所以这两个是等价的:

df.some_column

columnName = "some_column"
df[columnName]

在您的示例中，将对 df.column 的引用更改为 df[column] 应该可以解决该问题。但是，正如我在评论中提到的，您的代码还存在其他问题。就解决手头的任务而言，我在答案开头展示的字符串索引方法要简单得多。

关于python - 为什么 pandas DataFrame 中的列在此循环中不起作用？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38666111/

python - 为什么 pandas DataFrame 中的列在此循环中不起作用？

上一篇：python - 在 "if"语句的返回元组中使用 bool 值？

下一篇：python - 给定最小/最大的多个两列集，如果数字落在最小/最大之间，如何返回索引