python - 在 great_expectations 中使用腌制的 pandas 数据框作为数据 Assets

标签 python pandas great-expectations

可能是一个非常简单的问题,但我无法从 great_expectations 的文档中弄清楚。我想在本地存储为腌制文件“.pkl”的 pandas 数据帧上运行一些测试。

当我运行 great_expectations add-datasource 时,它忽略了 .pkl 文件,只为 .csv 文件创建了 Assets 。 从 pandas 读取 csv 文件很慢,所以如果 GE 可以支持其他格式,例如 pickle 和 HDF,那就太好了。

如何加载 .pkl 或 .hdf 文件作为 GE 的 Assets ?

我正在使用 v0.8.7 :)

最佳答案

对于 pandas(和 spark),有一个很好的通用方法可以完全控制数据的读取方式,即通过 BatchKwargs 指定一个已经可用的数据帧。

因此,在您的情况下,您可以执行以下操作:

my_dataset = pd.read_pickle(filename)
batch_kwargs = {"dataset": my_dataset}
batch = context.get_batch("my_datasource/in_memory_generator/my_dataset", "warning", batch_kwargs)

注意:这是针对 0.8.x 系列 API 的,假设数据上下文配置如下:

datasources:
  my_datasource:
    class_name: PandasDatasource
    ...
    generators:
      in_memory_generator:
        class_name: InMemoryGenerator

PS - 这个目的是 InMemoryGenerator 存在的主要原因。

编辑

在 Great Expectations >= 0.9.0 中,get_batch 的 API 已被简化,因此在这种情况下您将不再需要生成器,并且在批处理中指定了数据源名称​​夸格斯。类似的代码片段如下所示:

context = DataContext()
my_dataset = pd.read_pickle(filename)
batch_kwargs = {"datasource": "my_datasource", "dataset": my_dataset}
batch = context.get_batch(batch_kwargs=batch_kwargs, expectation_suite_name="warning")

(并且不需要生成器)

关于python - 在 great_expectations 中使用腌制的 pandas 数据框作为数据 Assets ,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59766843/

相关文章:

Python 重力模拟器表现奇怪

python - <sqlite3.Row 对象在 0x1017fe3f0> 而不是数据库内容

python - 如何找到 pandas 数据框字符串列中的最大单词数?

python - 根据分隔符拆分字符串列并将其转换为 Pandas 中的字典,无需循环

python - 检查 Great Expectations 中的列名和列类型

python - 从一个十六进制字符串构造一个 Numpy 数组

python - 如何访问 Python 父类(super class)的属性,例如通过 __class__.__dict__?

python - 根据 ID 添加 Pandas 列值

python - Spark 3.2.1 中的 Great_Expectations 条件期望与 DataBricks 中的 Pandas API