python - 具有不同数据类型列的 Pandas 数据框的列切片是否创建 View 或副本?

标签 python pandas dataframe

我有一些数据框如下:

df = pd.DataFrame([[1,2.0],[3,4.0]], index = ['row1','row2'], 
        columns = ['a','b'])
df2 = df.iloc[:, :]
df3 = df.iloc[:1, :]
df4 = df.iloc[:, :1]

a 列是 int 而 b 列是 float。

问题:是df2,df3,df4查看还是复制

测试 1:

print(df._is_view, df._is_copy)
print(df2._is_view, df2._is_copy)
print(df3._is_view, df3._is_copy)
print(df4._is_view, df4._is_copy)
False None
False None
False <weakref at 0x7fed1113de90; to 'DataFrame' at 0x7fed11aa80a0>
True <weakref at 0x7fed114d65c0; to 'DataFrame' at 0x7fed11aa9ab0>

由此可见,df2, df3 不是 View 。但是 df4 是。

为什么?

测试 2:

df2.loc['row1', 'b'] = 100.0
print(df1)
df3.loc['row1', 'a'] = 1000.0
print(df1)
df4.loc['row1', 'a'] = 10000.0
print(df1)

       a    b
row1  10  2.0
row2   3  4.0
        a    b
row1  100  2.0
row2    3  4.0
        a    b
row1  100  2.0
row2    3  4.0

/tmp/ipykernel_2006744/1832530048.py:5: SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame
See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df4.loc['row1', 'a'] = 1000

由此可见,df2df3更新时,df的值也随之更新。所以 df2df3 应该是一个 View 。

更新 df4 不会传播到 df,因此 df4 似乎是一个副本。

为什么结果与_is_view相矛盾

问题2:

设置df4 时的SettingWithCopyWarning 表示切片的副本。这是指什么?

“切片”是指 df4 吗?如果我使用的是 .loc,那么“切片的副本”是什么?

最佳答案

您正在为新创建的切片数据框设置值。不要这样做。这是一种链式分配,由 the document 发出警告.

在您的代码中,df2df3 是 View ,df4 是副本。从未记录的 API _is_view_is_copy 无法准确确定。警告中的'a copy of a slice'表示df[:, :1]的结果作为副本,其中'a slice'表示符号源代码df[:, :1] - Python 切片语法。

在当前的 Pandas 实现中,由于以下原因,无法轻易定义数据帧的切片是 View 还是原始帧的副本。

  • 数据框的单元格值可以存储到多个 NumPy 数组中。 (有关详细信息,请参阅 Uwe 的 The BlockManager。)

  • 对切片创建的跟踪引用的实现不完整。 (例如,请参见 NDFrame._slice()。它不会检查是否通过 Block.take_nd() 完成了实际复制。)

所以文档含糊地说“......可能取决于上下文”。 _is_view_is_copy 没有提供准确的信息。链式分配的内部检查并不总是完成。

例如,您可以在下面看到这种不完整。

print('on a heterogenious one')
df = pd.DataFrame({'a': [1, 2], 'b': [4, 5], 'c': ['a', 'b']})
df.iloc[:, :1].loc[0, 'a'] = 10

print('on a homogenious one')
df = pd.DataFrame({'a': [1, 2], 'b': [4, 5]})
df.iloc[:, :1].loc[0, 'a'] = 10

这会输出以下内容。

on a heterogenious one
on a homogenious one
test_iloc.py:10: SettingWithCopyWarning: 
...

关于python - 具有不同数据类型列的 Pandas 数据框的列切片是否创建 View 或副本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/74312668/

相关文章:

python - Python请求-线程/进程与IO

python - 将 Pandas 的列表列拆分为多列

python - 使用 dataframe2 中设置的条件从 dataframe1 中提取值(pandas,python)

python - 识别时间序列数据中的更新值 Python Pandas

python - 使用 HDF5 格式将 pandas 数据帧写入 S3

python - 总结当前行与上一行的差异

python - 如何使用 Pandas 将水平数据帧结构转换为垂直结构

python - 与 iexact 一起使用时,Django get_or_create 无法设置字段

python - Speechmatics 提交一份没有音频参数的作业

python - Pandas - 在每日人口普查数据中查找唯一条目