Python/Numpy : problems with type conversion in vectorize and item

标签 python datetime numpy

我正在编写一个函数来从数组的日期时间中提取值。我希望该函数能够在 Pandas DataFrame 或 numpy ndarray 上运行。

值的返回方式应与 Python 日期时间属性相同,例如

from datetime import datetime
dt = datetime(2016, 10, 12, 13)
dt.year
  => 2016
dt.second
  => 0

对于 DataFrame,使用 applymap() 相当容易处理(尽管可能有更好的方法)。我使用 vectorize() 对 numpy ndarrays 尝试了相同的方法,但遇到了问题。我最终得到的不是我期望的值,而是非常大的整数,有时甚至是负数。

一开始这非常令人困惑,但我弄清楚发生了什么:向量化函数使用 item 而不是 __get__ 从 ndarray 中获取值。这似乎会自动将每个 datetime64 对象转换为 long:

nd[1][0]
  => numpy.datetime64('1986-01-15T12:00:00.000000000')
nd[1].item()
  => 506174400000000000L

long 似乎是自纪元 (1970-01-01T00:00:00) 以来的纳秒数。沿着这条线的某个地方,值被转换为整数并且它们溢出,因此是负数。

所以这就是问题所在。请有人帮我解决它吗?我唯一能想到的就是手动进行转换,但这实际上意味着重新实现 datetime 模块的一部分。

是否有一些不使用 item()vectorize 替代方案?

谢谢!

最小代码示例:

## DataFrame works fine
import pandas as pd
from datetime import datetime

df = pd.DataFrame({'dts': [datetime(1970, 1, 1, 1), datetime(1986, 1, 15, 12),
                         datetime(2016, 7, 15, 23)]})
exp = pd.DataFrame({'dts': [1, 15, 15]})

df_func = lambda x: x.day    
out = df.applymap(df_func)

assert out.equals(exp)

## numpy ndarray is more difficult
from numpy import datetime64 as dt64, timedelta64 as td64, vectorize  # for brevity

# The unary function is a little more complex, especially for days and months where the minimum value is 1
nd_func = lambda x: int((dt64(x, 'D') - dt64(x, 'M') + td64(1, 'D')) / td64(1, 'D'))

nd = df.as_matrix()
exp = exp.as_matrix()
  => array([[ 1],
            [15],
            [15]])

# The function works as expected on a single element...
assert nd_func(nd[1][0]) == 15

# ...but not on an ndarray
nd_vect = vectorize(nd_func)
out = nd_vect(nd)
  => array([[    -105972749999999],
            [ 3546551532709551616],
            [-6338201187830896640]])

最佳答案

在 Py3 中,错误为 OverflowError:Python int 太大,无法转换为 C long

In [215]: f=np.vectorize(nd_func,otypes=[int])
In [216]: f(dts)
... 
OverflowError: Python int too large to convert to C long

但是如果我更改日期时间单位,它运行正常

In [217]: f(dts.astype('datetime64[ms]'))
Out[217]: array([ 1, 15, 15])

我们可以更深入地研究这个问题,但这似乎是最简单的解决方案。

请记住,vectorize 是一个方便的函数;它使得多维迭代变得更容易。但对于一维数组来说它基本上是

np.array([nd_func(i) for i in dts])

但请注意,我们不必使用迭代:

In [227]: (dts.astype('datetime64[D]') - dts.astype('datetime64[M]') + td64(1,'D')) / td64(1,'D').astype(int)
Out[227]: array([ 1, 15, 15], dtype='timedelta64[D]')

关于Python/Numpy : problems with type conversion in vectorize and item,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40001868/

相关文章:

python - 如何正确地向装饰器添加类型提示?

python +电子表格

python - 如何在 sql 查询中正确转义 %s

python - (python) 日期范围内的 "Passing Go"

ruby-on-rails - 仅使用 Ruby 内置函数将秒数转换为小时数 - 除了天数

Python HTTP 服务器未响应 POST 请求

datetime - 如何将特定日期映射到Elasticsearch日期/时间字段?

python - 我可以将正则表达式 re.sub() 与 numpy 数组或字符串列表一起使用吗?

numpy - 在周期性条件下切片numpy数组

python - 我如何让 keras 预测 one-hot 矩阵以外的东西?