python - Azure Kusto Spark 在写入中重写 ingestion_time()

标签 python azure apache-spark databricks azure-data-explorer

我正在使用 azure-kusto-spark 将数据写入 Kusto .

写入 Kusto 时,ingestion_time()(默认情况下)返回摄取记录的时间。

如何将此日期更改为其他日期?

我尝试使用creationTime和dropByTags。到目前为止还没有运气。 下面的 dropByTags 示例(我想将 ingestion_time() 更改为“2021-06-19”)

sp = sc._jvm.com.microsoft.kusto.spark.datasink.SparkIngestionProperties(False, ['2021-06-19'], None, None, None, None, None, None)

df.write. \
  format("com.microsoft.kusto.spark.datasource"). \
  ...
  option("sparkIngestionPropertiesJson", sp.toString()). \
  mode("Append"). \
  save()

在 Azure databricks 中将 pyspark 与 jar com.microsoft.azure.kusto:kusto-spark_3.0_2.12:2.7.4 结合使用

最佳答案

ingestion_time() 是摄取记录的 UTC 日期时间(由服务测量)。无论您使用哪个客户端 API 或摄取管道,它都无法被覆盖。

覆盖您在上面提到的creationTime,允许您确保相应地应用保留和缓存策略(根据数据分片的创建时间进行测量,您可以覆盖) .

您可能想澄清在什么情况下需要重写 ingestion_time()

关于python - Azure Kusto Spark 在写入中重写 ingestion_time(),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/68057452/

相关文章:

python - Django - FileField 检查是否没有

azure - 检查用户是否是 Azure AD 组的成员

Python Azure WebJob 导入错误 - 无法导入 Python 扩展模块

apache-spark - Spark MLlib - 使用隐式反馈训练协同过滤 - 奇怪的警告

apache-spark - 即使透视值不存在,也可以通过透视创建多个列

hadoop - 报告平台应该选择 yarn-cluster 还是 yarn-client?

python - 查找两个字符串之间的匹配百分比,同时考虑单词的顺序 - Python

python - 将比初始设置更多的 kwargs 传递给函数

python - 用户上传新文件时如何删除现有文件

azure - 水平扩展写入时如何避免并发问题?