python - 尝试将日志方法应用于 Python 中的 pandas 数据框列时出错

标签 python numpy pandas dataframe

所以,我对 Python 和 Pandas(以及一般的编程)还很陌生,但在使用一个看似简单的函数时遇到了麻烦。因此,我使用通过 SQL 查询提取的数据创建了以下数据框(如果您需要查看 SQL 查询,请告诉我,我会粘贴它)

spydata = pd.DataFrame(row,columns=['date','ticker','close', 'iv1m', 'iv3m'])
tickerlist = unique(spydata[spydata['date'] == '2013-05-31'])

之后,我编写了一个函数,使用其中已保存的数据在数据框中创建一些新列:

def demean(arr):
    arr['retlog'] = log(arr['close']/arr['close'].shift(1))

    arr['10dvol'] = sqrt(252)*sqrt(pd.rolling_std(arr['ret'] , 10 ))  
    arr['60dvol'] = sqrt(252)*sqrt(pd.rolling_std(arr['ret'] , 10 ))  
    arr['90dvol'] = sqrt(252)*sqrt(pd.rolling_std(arr['ret'] , 10 ))  
    arr['1060rat'] = arr['10dvol']/arr['60dvol']
    arr['1090rat'] = arr['10dvol']/arr['90dvol']
    arr['60dis'] = (arr['1060rat'] - arr['1060rat'].mean())/arr['1060rat'].std()
    arr['90dis'] = (arr['1090rat'] - arr['1090rat'].mean())/arr['1090rat'].std()
    return arr

我唯一遇到问题的部分是函数的第一行:

arr['retlog'] = log(arr['close']/arr['close'].shift(1))

当我运行这个命令时,我得到一个错误:

result = spydata.groupby(['ticker']).apply(demean)

错误:

    ---------------------------------------------------------------------------
AttributeError                            Traceback (most recent call last)
<ipython-input-196-4a66225e12ea> in <module>()
----> 1 result = spydata.groupby(['ticker']).apply(demean)
      2 results2 = result[result.date == result.date.max()]
      3 

C:\Python27\lib\site-packages\pandas-0.11.0-py2.7-win32.egg\pandas\core\groupby.pyc in apply(self, func, *args, **kwargs)
    323         func = _intercept_function(func)
    324         f = lambda g: func(g, *args, **kwargs)
--> 325         return self._python_apply_general(f)
    326 
    327     def _python_apply_general(self, f):

C:\Python27\lib\site-packages\pandas-0.11.0-py2.7-win32.egg\pandas\core\groupby.pyc in _python_apply_general(self, f)
    326 
    327     def _python_apply_general(self, f):
--> 328         keys, values, mutated = self.grouper.apply(f, self.obj, self.axis)
    329 
    330         return self._wrap_applied_output(keys, values,

C:\Python27\lib\site-packages\pandas-0.11.0-py2.7-win32.egg\pandas\core\groupby.pyc in apply(self, f, data, axis, keep_internal)
    632             # group might be modified
    633             group_axes = _get_axes(group)
--> 634             res = f(group)
    635             if not _is_indexed_like(res, group_axes):
    636                 mutated = True

C:\Python27\lib\site-packages\pandas-0.11.0-py2.7-win32.egg\pandas\core\groupby.pyc in <lambda>(g)
    322         """
    323         func = _intercept_function(func)
--> 324         f = lambda g: func(g, *args, **kwargs)
    325         return self._python_apply_general(f)
    326 

<ipython-input-195-47b6faa3f43c> in demean(arr)
      1 def demean(arr):
----> 2     arr['retlog'] = log(arr['close']/arr['close'].shift(1))
      3     arr['10dvol'] = sqrt(252)*sqrt(pd.rolling_std(arr['ret'] , 10 ))
      4     arr['60dvol'] = sqrt(252)*sqrt(pd.rolling_std(arr['ret'] , 10 ))
      5     arr['90dvol'] = sqrt(252)*sqrt(pd.rolling_std(arr['ret'] , 10 ))

AttributeError: log

我已经尝试将函数更改为 np.log 和 math.log,在这种情况下我得到了错误

TypeError: only length-1 arrays can be converted to Python scalars

我已经尝试查找此内容,但没有发现任何直接适用的内容。有什么线索吗?

最佳答案

当列的数据类型不是数字时会发生这种情况。尝试

arr['retlog'] = log(arr['close'].astype('float64')/arr['close'].astype('float64').shift(1))

我怀疑这些数字存储为通用“对象”类型,我知道这会导致日志抛出该错误。这是问题的简单说明:

In [15]: np.log(Series([1,2,3,4], dtype='object'))
---------------------------------------------------------------------------
AttributeError                            Traceback (most recent call last)
<ipython-input-15-25deca6462b7> in <module>()
----> 1 np.log(Series([1,2,3,4], dtype='object'))

AttributeError: log

In [16]: np.log(Series([1,2,3,4], dtype='float64'))
Out[16]: 
0    0.000000
1    0.693147
2    1.098612
3    1.386294
dtype: float64

您对 math.log 的尝试没有成功,因为该函数仅适用于单个数字(标量),不适用于列表或数组。

就其值(value)而言,我认为这是一条令人困惑的错误消息;无论如何,它曾经让我难过一段时间。不知是否可以改进。

关于python - 尝试将日志方法应用于 Python 中的 pandas 数据框列时出错,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16968433/

相关文章:

python - 通过索引获取数据帧的行数据给出错误

python - 如何让 Gremlin-Python 与 gremlin-server 3.4.3 一起工作?

python - 我可以向写入单元格的公式添加字符吗?

python - 拆分列中的名称

python - 当两个值相同时,如何将 pandas 数据框列的值与变量进行比较以获得总和?

python - 如何将字符串附加到 Python 中的路径?

python - 如何描述两个字典的比率的笛卡尔乘法?

python - 获取数据框中每个用户发生类别更改的日期

python - 如何创建具有多个自定义索引名称的新 pandas 数据框?

python - Pandas - 将列转换为 int 并强制 NaN