python - 具有导入函数的 sklearn FunctionTransformer

标签 python scikit-learn

我正在尝试将数据处理管道放在一起。其中一个步骤需要在某个功能上应用具有特定 lmbda 值的 numpy.stats.boxcox。我想我应该为此使用 FunctionTransformer 。我可以让它适用于没有任何参数的基本函数,但我无法让它适用于具有特定 lambda 的 boxcox 函数。我认为我没有正确传递参数(见下文):

我可以让 FunctionTransformer 处理基本函数:

def plus_one(X):
    return X + 1

b = np.array([[1, 2, 3], [4, 5, 6]], np.int32)

plus = FunctionTransformer(plus_one)

x = plus.transform(b)

print('b')
print(b)

print('')
print('b+1')
print(b + 1)

print('')
print('b + 1 by transformer')
print(x)

输出是:

b
[[1 2 3]
 [4 5 6]]

b+1
[[2 3 4]
 [5 6 7]]

b + 1 by transformer
[[2 3 4]
 [5 6 7]]

我无法让它在像 boxcox 这样更复杂的函数上工作:

from scipy import stats

print('boxcox(b)')
print(stats.boxcox(b, lmbda = 0.21411476060664147))


bc_trans = FunctionTransformer(stats.boxcox(lmbda = 0.21411476060664147))
y = bc_trans.transform(b)

print('')
print('boxcox(b) by transformation')

输出为:

boxcox(b)
[[0.         0.7472251  1.23858159]
 [1.61400018 1.92154649 2.18396975]]
---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-111-3615afca78ec> in <module>()
      5 
      6 
----> 7 bc_trans = FunctionTransformer(stats.boxcox(lmbda = 0.21411476060664147))
      8 y = bc_trans.transform(b)
      9 

TypeError: boxcox() missing 1 required positional argument: 'x'

最佳答案

您需要创建一个包装 boxcox 调用的函数(如示例中的 plus_one)。其次,您需要传递函数定义而不是函数调用。此代码解决您的问题:

import numpy as np
from sklearn.preprocessing import FunctionTransformer
from scipy import stats


def bx(X):
    return stats.boxcox(X, lmbda=0.21411476060664147)

b = np.array([[1, 2, 3], [4, 5, 6]], np.int32)

bc_trans = FunctionTransformer(bx)
y = bc_trans.transform(b)

print('')
print('boxcox(b) by transformation')

请注意,上面的代码定义了一个函数 bx 并将该函数(不是函数调用)传递给 FunctionTransformer。一个更Pythonic的解决方案是使用partial。只需添加

from functools import partial

到您的导入并通过以下方式更改函数定义:

bx = partial(stats.boxcox, lmbda=0.21411476060664147)

关于python - 具有导入函数的 sklearn FunctionTransformer,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51904158/

相关文章:

python - pySpark 项目的 Azure DevOps CI 管道

python - 为什么 Python 使用以下代码知道答案按字母顺序排列是正确的?

python - Sklearn LDA 分析不会生成二维

python - 使用 pandas 和 scikit 的梯度提升分类器稀疏矩阵问题

scikit-learn - 从 sklearn enet_path 返回拦截

python - 使 Python 切片保持正常(正/前向 + 无 None + 无负索引 + 在边界内)

python - 多核硬件上的 numpy

python - 使用 PKCS#11 在 Python 中提供 SSL 连接

python - cross_val_score 返回每个类的准确度

python - 随机森林修剪