python - pydantic @validate_arguments 非内置类型(如 pandas DataFrame)的最佳实践

标签 python pandas dataframe types pydantic

我目前正在尝试使用 pydantic 验证函数的输入参数。这适用于内置数据类型,但不适用于 pandas.DataFrame 或 numpy.array 等类型。 示例:

@validate_arguments
def some_function(params: pd.DataFrame,
                  var_name: str
                  ) -> dict:
    # do something
    return my_dict

调用 some_function 时显示以下错误:

RuntimeError: no validator found for <class 'pandas.core.frame.DataFrame'>, see `arbitrary_types_allowed` in Config`

我的第一个想法是用这样的东西定义我自己的 DataFrame 类型:

class MyDF(pd.DataFrame):
    @classmethod
    def __get_validators__(cls):
        yield cls.validate

    @classmethod
    def validate(cls, val):
        return pd.DataFrame(val)

我不确定这是否是最佳做法。有没有人有更好的想法?

最佳答案

你可以定义一个custom config允许任意类型,以便 pydantic 检查参数是该类型的实例。

例如:

@validate_arguments(config=dict(arbitrary_types_allowed=True))
def some_function(params: pd.DataFrame,
                  var_name: str
                  ) -> dict:
    # do something
    return my_dict

模型配置选项的文档可用 here

关于python - pydantic @validate_arguments 非内置类型(如 pandas DataFrame)的最佳实践,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/68349150/

相关文章:

python - 蜘蛛的 Scrapy 域名

python - Django 在运行测试时忽略路由器?

python - Python 有 argc 参数吗?

python - Pandas:跨数据帧的列使用 DataFrame.apply() 和 Series.sum() 函数比调用 DataFrame.sum() 更快。为什么?

报告 R 中两个数据框之间的差异

python - 如何获得数据帧之间的总时间重叠量?

python - Numba parallel 在 for 循环中导致不正确的结果,我无法查明问题所在

windows - odo 在 csv 和 mysql 之间转换数据

python - Pandas - 将数据框插入 MongoDB

r - 在 R 中从列表转换为 data.frame 时,utf-8 字符会丢失