python - dtype 比较 : == and isin produce different results for "object"

标签 python pandas

最小的例子:

df = pd.DataFrame({'x': ['a', 'b', 'c'], 'y': [1, 2, 3], 'z': ['d', 'e', 'f']})
df

   x  y  z
0  a  1  d
1  b  2  e
2  c  3  f

df.dtypes

x    object
y     int64
z    object
dtype: object

这个想法是过滤掉object 类型的列。我知道这可以使用 select_dtypes 来完成,这个问题背后的动机是检查我将要向您展示的内容背后的奇怪行为。

==(因此,.eq)用于比较特定类型。

df.dtypes == object

x     True
y    False
z     True
dtype: bool

但是,isin 不会:

df.dtypes.isin([object])
df.dtypes.isin(['object'])

x    False
y    False
z    False
dtype: bool

OTOH,创建一个 np.dtype 对象并传递它确实

df.dtypes.isin([np.dtype('O')])

x     True
y    False
z     True
dtype: bool

np.isin 在这里工作,所以没有理由让它的行为有任何不同。

np.isin(df.dtypes, object)
array([ True, False,  True])

np.isin(df.dtypes, 'object')
array([ True, False,  True])

isin 似乎仅在检查对象类型时造成问题。 df.dtypes.isin(['int']) 给出了预期的结果。

附带说明一下,我在 0.24 上运行这些测试。

pd.__version__
'0.24.2'

这是错误还是预期的行为?

最佳答案

这归结为 pandas.Series.isin 依赖哈希表 in this case,而在 0.20.3 中,这可能会沿着不同的代码路径并使用 np.in1d depending on your version of python/numpy .

注意np.dtype('O')object的hash不一样,这就解释了当前的失败:

In [2]: hash(np.dtype('O'))
Out[2]: 7065344498483383396

In [3]: hash(object)
Out[3]: 108607961

看起来 np.in1d 正在为对象执行 direct equality comparisons,并且与 object/'object' 的相等性内置于定义中np.dtype('O') 独立于哈希。

它还说明了 pandas 的 isin 的一个更大问题:比较相等但具有不同哈希值的对象对于小输入情况将无法通过 isin。考虑以下类:

class Foo(object):
    def __init__(self, hash_val):
        self.hash_val = hash_val

    def __hash__(self):
        return self.hash_val

    def __eq__(self, other):
        return isinstance(other, Foo)

然后我们得到:

In [5]: s = pd.Series([Foo(0), Foo(1), Foo(2)])

In [6]: s == Foo(3)
Out[6]:
0    True
1    True
2    True
dtype: bool

In [7]: s.isin([Foo(3)])
Out[7]:
0    False
1    False
2    False
dtype: bool

In [8]: np.in1d(s.values, [Foo(3)])
Out[8]: array([ True,  True,  True])

这是一个错误吗?可能,但我猜这是一个低优先级的修复项目,因为这是一个极端情况,并且可能以高效的方式修复(即当前的实现有一个注释表明该对象) dtypes 不应该传递给 np.in1d 因为它可能会引发,所以简单地委托(delegate)给 np.in1d 是行不通的)。

关于python - dtype 比较 : == and isin produce different results for "object",我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56485323/

相关文章:

python - 在 Mac 上构建通用二进制文件 - 强制单个编译器子进程

python - numpy - 用 0 调整数组大小

python - 使用 pandas GroupBy.agg() 对同一列进行多个聚合

python - 如何自动重命名 Pandas 中的列?

python - 如何在列的两个给定值之间选择数据框?

python - 使用 if else 逻辑应用函数修改多列

python - 为 PySide 和 web2py 编写

python - 箱线图之外的点是否为异常值?

python - 创建奇怪的边矩阵

Python win32com EXCEL 返回无