我有一些数据框如下:
df = pd.DataFrame([[1,2.0],[3,4.0]], index = ['row1','row2'],
columns = ['a','b'])
df2 = df.iloc[:, :]
df3 = df.iloc[:1, :]
df4 = df.iloc[:, :1]
a
列是 int 而 b
列是 float。
问题:是df2,df3,df4
查看还是复制
测试 1:
print(df._is_view, df._is_copy)
print(df2._is_view, df2._is_copy)
print(df3._is_view, df3._is_copy)
print(df4._is_view, df4._is_copy)
False None
False None
False <weakref at 0x7fed1113de90; to 'DataFrame' at 0x7fed11aa80a0>
True <weakref at 0x7fed114d65c0; to 'DataFrame' at 0x7fed11aa9ab0>
由此可见,df2, df3
不是 View 。但是 df4
是。
为什么?
测试 2:
df2.loc['row1', 'b'] = 100.0
print(df1)
df3.loc['row1', 'a'] = 1000.0
print(df1)
df4.loc['row1', 'a'] = 10000.0
print(df1)
a b
row1 10 2.0
row2 3 4.0
a b
row1 100 2.0
row2 3 4.0
a b
row1 100 2.0
row2 3 4.0
/tmp/ipykernel_2006744/1832530048.py:5: SettingWithCopyWarning:
A value is trying to be set on a copy of a slice from a DataFrame
See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
df4.loc['row1', 'a'] = 1000
由此可见,df2
或df3
更新时,df
的值也随之更新。所以 df2
和 df3
应该是一个 View 。
更新 df4
不会传播到 df
,因此 df4
似乎是一个副本。
为什么结果与_is_view
相矛盾
问题2:
设置df4
时的SettingWithCopyWarning
表示切片的副本
。这是指什么?
“切片”是指 df4
吗?如果我使用的是 .loc
,那么“切片的副本”是什么?
最佳答案
您正在为新创建的切片数据框设置值。不要这样做。这是一种链式分配,由 the document 发出警告.
在您的代码中,df2
和 df3
是 View ,df4
是副本。从未记录的 API _is_view
和 _is_copy
无法准确确定。警告中的'a copy of a slice'表示df[:, :1]
的结果作为副本,其中'a slice'表示符号源代码df[:, :1]
- Python 切片语法。
在当前的 Pandas 实现中,由于以下原因,无法轻易定义数据帧的切片是 View 还是原始帧的副本。
数据框的单元格值可以存储到多个 NumPy 数组中。 (有关详细信息,请参阅 Uwe 的 The BlockManager。)
对切片创建的跟踪引用的实现不完整。 (例如,请参见 NDFrame._slice()。它不会检查是否通过
Block.take_nd()
完成了实际复制。)
所以文档含糊地说“......可能取决于上下文”。 _is_view
和 _is_copy
没有提供准确的信息。链式分配的内部检查并不总是完成。
例如,您可以在下面看到这种不完整。
print('on a heterogenious one')
df = pd.DataFrame({'a': [1, 2], 'b': [4, 5], 'c': ['a', 'b']})
df.iloc[:, :1].loc[0, 'a'] = 10
print('on a homogenious one')
df = pd.DataFrame({'a': [1, 2], 'b': [4, 5]})
df.iloc[:, :1].loc[0, 'a'] = 10
这会输出以下内容。
on a heterogenious one
on a homogenious one
test_iloc.py:10: SettingWithCopyWarning:
...
关于python - 具有不同数据类型列的 Pandas 数据框的列切片是否创建 View 或副本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/74312668/