python - Azure Kusto Spark 在写入中重写 ingestion_time()

标签 python azure apache-spark databricks azure-data-explorer

我正在使用 azure-kusto-spark 将数据写入 Kusto .

写入 Kusto 时，ingestion_time()(默认情况下)返回摄取记录的时间。

如何将此日期更改为其他日期？

我尝试使用creationTime和dropByTags。到目前为止还没有运气。下面的 dropByTags 示例(我想将 ingestion_time() 更改为“2021-06-19”)

sp = sc._jvm.com.microsoft.kusto.spark.datasink.SparkIngestionProperties(False, ['2021-06-19'], None, None, None, None, None, None)

df.write. \
  format("com.microsoft.kusto.spark.datasource"). \
  ...
  option("sparkIngestionPropertiesJson", sp.toString()). \
  mode("Append"). \
  save()

在 Azure databricks 中将 pyspark 与 jar com.microsoft.azure.kusto:kusto-spark_3.0_2.12:2.7.4 结合使用

最佳答案

ingestion_time() 是摄取记录的 UTC 日期时间(由服务测量)。无论您使用哪个客户端 API 或摄取管道，它都无法被覆盖。

覆盖您在上面提到的creationTime，允许您确保相应地应用保留和缓存策略(根据数据分片的创建时间进行测量，您可以覆盖) .

您可能想澄清在什么情况下需要重写 ingestion_time()。

关于python - Azure Kusto Spark 在写入中重写 ingestion_time()，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/68057452/